Web Scraper 10分钟爬取微博评论实践(进阶教程)

用完这个工具,你会发现,根本不用像python一样模拟登陆,敲一大堆代码,平均获取一页数据在1.5秒左右,简单轻松上手。

第一步 安装Web Scraper、注册Web Scraper账号和Dropbox账号

Web Scraper是一个chrome插件,网上自行下载,csdn人都会,安装完会跳转页面,顺着页面注册账号即可,然后想要导出的话得链接Dropbox账号,up主5分钟就搞定了,这里就不多赘述咯

第二步 打开想要爬取的微博网站,直接开爬

这里有个小细节,如果你是在网页打开电脑端的微博如Sina Visitor Systemhttps://weibo.com/,网页内容极其复杂,估计很难爬,但是如果你打开的是移动版的网页如微博,一切就变得简单了。

1. 找到想爬取评论的网站后,打开F12调试器,点击Web Scraper  —— Create new sitemap ——Create Sitemap

其中,Sitemap name名称是项目名称,英文随意取,Start URL就是想要爬取的网站的URL,输入完点击Create Sitemap

2. 点击Add new selector

其中Id是你想给该行为取的名称或者所爬取的内容的名称,也是英文,Type的话选择Element Scroll down(也就是向下滚动,如果没有该动作,你只能爬取少量几个数据,加了该动作,它会自动往下滚动到底部才会停止,然后同时爬取所有加载的你选中的内容。)

必须勾选Multiple,因为字样才会批量爬取,一切就绪后点击select进行内容的勾选。

像我这样选中整个评论的框,点击它,然后再点下一个,你会发现匹配上了,然后点绿色的Done selecting

然后点保存

3. 点进我们的这个选择器,现在开始给数据分类了,例如名称,评论内容,评论时间等。

记得父级Item,默认的是对的

同样保存,这个数据就归类好了,接下来文本哪,时间哪也都是这个操作。

做完如图:可以点击Data view看一下数据对不(强烈建议全部做完再点,因为这样它会开始爬取)

4. 回到根目录开始爬取,点Start scraping就可以开始爬取了,建议爬大型网站时不赶时间的话改为5000毫秒 ,防拉黑

爬取完成后点refresh就可以看了

5. 导出

效果如图:

好了,以上就是全部内容了,感谢观看!!!

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值