【python爬虫】京东商品分析

本文通过Python爬虫分析京东平台上的惠普笔记本电脑价格,详细讲解了如何获取商品名称、链接、价格信息,并进行数据可视化,展示了动态网站的爬取和Pygal库的雷达图应用。
摘要由CSDN通过智能技术生成

                                                                   基于python的电商商品价格分析

一、选题背景

   随着互联网的普及,网络购物已经成为了人们购物的首选,用户只需要在电商平台上进行自己喜欢的商品进行搜素,就可以得到成千上万条商品信息。而在购买商品时,商品价格就成为了用户的主要关注对象,而在一些特殊的日子里,例如618、双十一等等,许多商品都会降价以此来吸引顾客,降价的多少也成为了用户浏览商品的一个因素。因此,对商品降价的分析对用户是否购买该商品提供了对比性,具有一定的意义。

二、步骤

    要得到商品降价的多少,首先需要得到该商品降价前的价格和降价后的价格,然后再对每一件商品计算具体降价价格,为了便于分析,将数据进行可视化,以京东平台上的惠普笔记本电脑为例。

    只进行一页商品信息的获取,分析京东源代码可得到一页有60个商品,接下来进行着60个商品信息的提取。

1.商品信息的获取

(1)商品名称的获取

先在京东上找出惠普笔记本电脑的网址(URL=https://list.jd.com/list.html?cat=670,671,672&ev=exbrand_8740&page=1&sort=sort_totalsales15_desc&trans=1&JL=6_0_0#J_main)

    然后按“ctrl+shift+I”打开网页源码,找出商品名称位于哪个html代码段中,并用正则表达式进行内容的提取。分析网页源代码可知:商品名信息位于标签<div class="p-name">之后的<em></em>标签之内(蓝色黑字部分)。

    对应的正则表达式提取式为:\<div class\="p\-name"\>\s*\<a target\="_blank" title\=".*\>\s*\<em.*\s*.*\>

    这个提取式只是将一段含有商品名称的html代码段提取出来,商品信息在提取之后的<em></em>代码段中,用正则表达式\<em.*\s.*\>进行提取。

    最后将提取到的商品名称存储于一个列表name中,等待后续的使用。

(2)每件商品链接的获取

    观察图2,可知还是在同一部分,<a>标签中的href属性对应的链接即为每件商品对应的url,点击之后进入的界面为该商品的主页面。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值