【云云怪】第6个项目：爬百度资讯

最新推荐文章于 2024-04-01 14:40:10 发布

云云怪

最新推荐文章于 2024-04-01 14:40:10 发布

阅读量317

点赞数 1

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57719910/article/details/117221157

版权

（先声明：创建这个项目的时候，百度的robots协议只禁止了taobao，所以我的爬虫是合法的。不过现在百度的robots又改了，所以这篇就不附上完整代码了）

【项目预览】

【创作背景】

学了爬虫之后，先捣鼓了一个爬今日头条的程序，然后我老公说，今日头条这种新晋暴发户太low了，百度才是中国互联网界的资深贵族，去做个爬百度新闻的程序吧。

【过程分析】

1，爬哪个网页？直接打开百度，输入关键词搜索，会进入“网页”。网页里面的信息太繁杂，有百科，有新闻，有广告，有贴吧，有音乐。。。实在不利于一只新闻爬虫工作。于是，我选择直接爬取“资讯”页面。

2，新闻的时效性：搜索新闻通常希望是有时效性的，比如我只想看1天以内的新闻。百度是咨询列出了新闻发布的时间，因此用datetime能够算出时效。

3，新闻的质量：在今日头条的项目里，我还做了个“评论数”筛选器，筛掉哪些很少评论（在我看来就意味着滥竽充数）的新闻，以获取高质量的精选新闻。但百度资讯没有很好的展示评论数，因此这个功能暂时只能放弃。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【云云怪】第6个项目：爬百度资讯

（先声明：创建这个项目的时候，百度的robots协议只禁止了taobao，所以我的爬虫是合法的。不过现在百度的robots又改了，所以这篇就不附上完整代码了）【项目预览】【创作背景】学了爬虫之后，先捣鼓了一个爬今日头条的程序，然后我老公说，今日头条这种新晋暴发户太low了，百度才是中国互联网界的资深贵族，去做个爬百度新闻的程序吧。【过程分析】1，爬哪个网页？直接打开百度，输入关键词搜索，会进入“网页”。网页里面的信息太繁杂，有百科，有新闻，有广告，有贴吧，有音乐。。。实在不利于一只新
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。