先附上下载的web Scraper0.5.4版本网盘链接:
链接:https://pan.baidu.com/s/1__jSFgfPKBg-CeqSg95zbg
提取码:xjmt
这里以 天猫超市牛奶专区网站 的信息爬取作为实例。
爬取商品的价格,名称,月成交量和评论数。
一、首先打开chrome浏览器的开发者工具,切换到Web Scraper,点击Create new sitemap创建新项目,输入项目名及初始网址后点击Create sitemap,流程如下图所示。
二、点击Add new selector按钮创建一个元素选择器,该选择器主要是用来选择包含多个数据内容的元素,其会返回每个选择元素作为子选择器的母元素,具体操作及填写内容如下:
三、点击milk按钮后,点击Add new selector按钮创建一个子元素选择器,分别为标题title,价格price,成交量volume,评论数comment-number。以创建价格选择器为例,其他选择器只需修改为相应的id和selector后即可,操作如下图:![在这里插入图片描述](https://img-blog.csdnimg.cn/20201123184049414.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTU5MTA0NA==,size_16,color_FFFFFF,t_70#pic_center)
四、创建好后点击Data preview,可以预览所爬取的数据,如下图所示:![在这里插入图片描述](https://img-blog.csdnimg.cn/20201123184131374.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTU5MTA0NA==,size_16,color_FFFFFF,t_70#pic_center)
五、点击Sitemap tianmao后选择Scrape,最后点击Start scraping开始爬虫
六、爬取时会弹去一个窗口显示爬去的情况,待爬虫结束后窗口会关闭,点击refresh即可得到数据,部分结果如下:![在这里插入图片描述](https://img-blog.csdnimg.cn/20201123184246904.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTU5MTA0NA==,size_16,color_FFFFFF,t_70#pic_center)
七、导出数据,点击Sitemap tianmao后选择Export data as CSV,点击Download now,会在默认下载器里得到该CSV文件,用Excel打开即可。