Python实现微博热搜推送

本文介绍如何使用Python抓取微博热搜榜,并通过邮件进行定时推送。详细阐述了从抓取数据到配置邮箱,再到定时发送的全过程,最后展示了实现效果和完整代码。
摘要由CSDN通过智能技术生成

一. 写在前面的话

最近项目忙得差不多了,要开始准备毕业论文了,所以我想把一些国外论文的pdf,以及一些英语相关的新闻推送到我的pad上面,这样就不用到处找了,直接保存就行。当然不能光看论文啊,也要放松一下啊(说实话,纯英文的文章很枯燥)。然后就想到把微博热搜也顺便推送到我的邮箱里面,好了废话不多说了,代码敲起( 大笑 大笑 大笑

二. 抓取微博热搜首页

进入 热搜首页,只有10条阅读量最高的微博,我们就是要把标题和链接抓取,最后写成html的格式发给邮箱,让邮箱里面可以点击。如果你用Python的requests库去请求,你会发现返回的html里面body是空的,没错就是空的。这里会有一个bug,新浪并没有把网页的源码直接返回给你,而是把源码放到了<script>标签里,我猜他这么做也是为了防爬。我们看看倒数第二个<script>标签会发现里面几乎是一个字典数据,里面有一个html的key,我们只要将它取出来再去解析,基本就ok了。


具体的抓取规则见下:我已经写了注释,这里用的是requests和xpath,个人感觉xpath比较好用,最后我只用了标题和链接。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值