【云云怪】第6个项目:爬百度资讯

(先声明:创建这个项目的时候,百度的robots协议只禁止了taobao,所以我的爬虫是合法的。不过现在百度的robots又改了,所以这篇就不附上完整代码了)

【项目预览】

【创作背景】

学了爬虫之后,先捣鼓了一个爬今日头条的程序,然后我老公说,今日头条这种新晋暴发户太low了,百度才是中国互联网界的资深贵族,去做个爬百度新闻的程序吧。

【过程分析】

1,爬哪个网页?直接打开百度,输入关键词搜索,会进入“网页”。网页里面的信息太繁杂,有百科,有新闻,有广告,有贴吧,有音乐。。。实在不利于一只新闻爬虫工作。于是,我选择直接爬取“资讯”页面。

2,新闻的时效性:搜索新闻通常希望是有时效性的,比如我只想看1天以内的新闻。百度是咨询列出了新闻发布的时间,因此用datetime能够算出时效。

3,新闻的质量:在今日头条的项目里,我还做了个“评论数”筛选器,筛掉哪些很少评论(在我看来就意味着滥竽充数)的新闻,以获取高质量的精选新闻。但百度资讯没有很好的展示评论数,因此这个功能暂时只能放弃。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值