关于python爬取中国主流网络论坛小结

文章目录

  • 知乎
    网上都说知乎不好爬取,我最开始爬取的时候也常常遇到被识别为爬虫软件的情况,后来看到一片旧文章,附带代码中有知乎网页改版前的headers的accept 标识,加入含有这个的headers知乎,知乎实际上成为爬虫难度最小的。

  • 微博
    网络上关于微博数据爬取的项目和代码很多,但是当我真正copy一个开始调试的时候发现大部分代码都只能实现微博的爬取,无法爬取评论。微博评论需要翻页,但是在没有登陆的情况下翻页是受到严格限制的,出于时间的考虑,我没有考虑学习代理。

  • 天涯论坛百度贴吧
    应该说作为2010年前后的网络舆论阵地,两地汇聚很多往年的舆论信息和特定的人群,同时两处的数据爬取都直接从网页源代码就可以活动,其他当前热门论坛则需要network中获取,爬取难度小。其中,天涯对于搜索结果都设置了前75页内容的限制,一定程度上舍弃了部分历史数据。百度的关键词屏蔽和言论审查机制现在已经较为严格,但是尽管关键词屏蔽,某些特定话题还是能够找到相应的分贴吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值