关于python爬取中国主流网络论坛小结

最新推荐文章于 2021-09-10 11:25:50 发布

Looking for Mola

最新推荐文章于 2021-09-10 11:25:50 发布

阅读量277

点赞数

分类专栏： RA 文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/weixin_44002366/article/details/109152388

版权

1 篇文章 0 订阅

订阅专栏

知乎
网上都说知乎不好爬取，我最开始爬取的时候也常常遇到被识别为爬虫软件的情况，后来看到一片旧文章，附带代码中有知乎网页改版前的headers的accept 标识，加入含有这个的headers知乎，知乎实际上成为爬虫难度最小的。
微博
网络上关于微博数据爬取的项目和代码很多，但是当我真正copy一个开始调试的时候发现大部分代码都只能实现微博的爬取，无法爬取评论。微博评论需要翻页，但是在没有登陆的情况下翻页是受到严格限制的，出于时间的考虑，我没有考虑学习代理。
天涯论坛和百度贴吧
应该说作为2010年前后的网络舆论阵地，两地汇聚很多往年的舆论信息和特定的人群，同时两处的数据爬取都直接从网页源代码就可以活动，其他当前热门论坛则需要network中获取，爬取难度小。其中，天涯对于搜索结果都设置了前75页内容的限制，一定程度上舍弃了部分历史数据。百度的关键词屏蔽和言论审查机制现在已经较为严格，但是尽管关键词屏蔽，某些特定话题还是能够找到相应的分贴吧。

关注