文章目录
-
知乎
网上都说知乎不好爬取,我最开始爬取的时候也常常遇到被识别为爬虫软件的情况,后来看到一片旧文章,附带代码中有知乎网页改版前的headers的accept 标识,加入含有这个的headers知乎,知乎实际上成为爬虫难度最小的。 -
微博
网络上关于微博数据爬取的项目和代码很多,但是当我真正copy一个开始调试的时候发现大部分代码都只能实现微博的爬取,无法爬取评论。微博评论需要翻页,但是在没有登陆的情况下翻页是受到严格限制的,出于时间的考虑,我没有考虑学习代理。 -
天涯论坛和百度贴吧
应该说作为2010年前后的网络舆论阵地,两地汇聚很多往年的舆论信息和特定的人群,同时两处的数据爬取都直接从网页源代码就可以活动,其他当前热门论坛则需要network中获取,爬取难度小。其中,天涯对于搜索结果都设置了前75页内容的限制,一定程度上舍弃了部分历史数据。百度的关键词屏蔽和言论审查机制现在已经较为严格,但是尽管关键词屏蔽,某些特定话题还是能够找到相应的分贴吧。