基于python的电商商品价格分析
一、选题背景
随着互联网的普及,网络购物已经成为了人们购物的首选,用户只需要在电商平台上进行自己喜欢的商品进行搜素,就可以得到成千上万条商品信息。而在购买商品时,商品价格就成为了用户的主要关注对象,而在一些特殊的日子里,例如618、双十一等等,许多商品都会降价以此来吸引顾客,降价的多少也成为了用户浏览商品的一个因素。因此,对商品降价的分析对用户是否购买该商品提供了对比性,具有一定的意义。
二、步骤
要得到商品降价的多少,首先需要得到该商品降价前的价格和降价后的价格,然后再对每一件商品计算具体降价价格,为了便于分析,将数据进行可视化,以京东平台上的惠普笔记本电脑为例。
只进行一页商品信息的获取,分析京东源代码可得到一页有60个商品,接下来进行着60个商品信息的提取。
1.商品信息的获取
(1)商品名称的获取
先在京东上找出惠普笔记本电脑的网址(URL=https://list.jd.com/list.html?cat=670,671,672&ev=exbrand_8740&page=1&sort=sort_totalsales15_desc&trans=1&JL=6_0_0#J_main)
然后按“ctrl+shift+I”打开网页源码,找出商品名称位于哪个html代码段中,并用正则表达式进行内容的提取。分析网页源代码可知:商品名信息位于标签<div class="p-name">之后的<em></em>标签之内(蓝色黑字部分)。
对应的正则表达式提取式为:\<div class\="p\-name"\>\s*\<a target\="_blank" title\=".*\>\s*\<em.*\s*.*\>
这个提取式只是将一段含有商品名称的html代码段提取出来,商品信息在提取之后的<em></em>代码段中,用正则表达式\<em.*\s.*\>进行提取。
最后将提取到的商品名称存储于一个列表name中,等待后续的使用。
(2)每件商品链接的获取
观察图2,可知还是在同一部分,<a>标签中的href属性对应的链接即为每件商品对应的url,点击之后进入的界面为该商品的主页面。