Web Scraper 10分钟爬取微博评论实践(进阶教程)

最新推荐文章于 2024-08-09 22:48:01 发布

土拨鼠爱coding

最新推荐文章于 2024-08-09 22:48:01 发布

阅读量2.8k

点赞数 6

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46449236/article/details/133819192

版权

用完这个工具，你会发现，根本不用像python一样模拟登陆，敲一大堆代码，平均获取一页数据在1.5秒左右，简单轻松上手。

第一步安装Web Scraper、注册Web Scraper账号和Dropbox账号

Web Scraper是一个chrome插件，网上自行下载，csdn人都会，安装完会跳转页面，顺着页面注册账号即可，然后想要导出的话得链接Dropbox账号，up主5分钟就搞定了，这里就不多赘述咯

第二步打开想要爬取的微博网站，直接开爬

这里有个小细节，如果你是在网页打开电脑端的微博如Sina Visitor System https://weibo.com/，网页内容极其复杂，估计很难爬，但是如果你打开的是移动版的网页如微博，一切就变得简单了。

1. 找到想爬取评论的网站后，打开F12调试器，点击Web Scraper —— Create new sitemap ——Create Sitemap

其中，Sitemap name名称是项目名称，英文随意取，Start URL就是想要爬取的网站的URL，输入完点击Create Sitemap

2. 点击Add new selector

其中Id是你想给该行为取的名称或者所爬取的内容的名称，也是英文，Type的话选择Element Scroll down(也就是向下滚动，如果没有该动作，你只能爬取少量几个数据，加了该动作，它会自动往下滚动到底部才会停止，然后同时爬取所有加载的你选中的内容。)

必须勾选Multiple，因为字样才会批量爬取，一切就绪后点击select进行内容的勾选。

像我这样选中整个评论的框，点击它，然后再点下一个，你会发现匹配上了，然后点绿色的Done selecting

然后点保存

3. 点进我们的这个选择器，现在开始给数据分类了，例如名称，评论内容，评论时间等。

记得父级Item，默认的是对的

同样保存，这个数据就归类好了，接下来文本哪，时间哪也都是这个操作。

做完如图：可以点击Data view看一下数据对不(强烈建议全部做完再点，因为这样它会开始爬取)

4. 回到根目录开始爬取，点Start scraping就可以开始爬取了，建议爬大型网站时不赶时间的话改为5000毫秒，防拉黑

爬取完成后点refresh就可以看了

5. 导出

效果如图：

好了，以上就是全部内容了，感谢观看！！！

土拨鼠爱coding

博客等级

码龄5年

24
原创

75
点赞

85
收藏

56
粉丝

关注

私信

热门文章

最新评论

React-Native踩坑历险记之TextInput首次聚焦失焦问题
G24133: 你好, 这个问题有得到解决吗
Web Scraper 10分钟爬取微博评论实践(进阶教程)
陈洁767: 博主想问一下，怎么让他自动加载更多哇，只能爬22条
访问github无样式保姆级方案
张昊一直勇: 最后一步保存不了哇
React-Native踩坑历险记之TextInput首次聚焦失焦问题
CSDN-Ada助手: 恭喜您写了第19篇博客！看到您分享了关于React-Native中TextInput首次聚焦失焦问题的经验总结，让我们受益匪浅。希望您可以继续分享更多关于React-Native的踩坑历险记，让更多的人受益。或许下一步可以分享一些解决React-Native中常见问题的方法，或是介绍一些实用的插件和工具。期待您的下一篇作品！
React-Native进阶：数组状态管理 Array State
CSDN-Ada助手: 恭喜您发布了第18篇博客，标题为“React-Native进阶：数组状态管理 Array State”。您的内容清晰易懂，对React-Native的进阶知识有很好的掌握。希望您能继续保持写作的热情和耐心，为读者带来更多有价值的内容。或许在下一篇博客中，您可以探讨一下React-Native中的组件间通信或者路由管理等主题，这样可以让读者更全面地了解React-Native的相关知识。期待您的下一篇作品！

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。