【Python】爬虫:微博找人页面爬虫(一)

【Python】爬虫:微博找人页面爬虫(一)

最近想通过爬去微博上大V信息来做爬虫练手,于是,在微博-找人页面,看到有许多分类,并且里面都是些大V,页面:https://d.weibo.com/1087030002_417#
在这里插入图片描述
上面有许多分类,所以想爬取从明星后的所有分类,共有50个大类,每个大类下有各自的小类,这次就按大类进行爬取。
在这里插入图片描述
每种大类下面,都包含一定数量的列表页,有的分类下面是空的,不过也不影响。

爬取思路

将爬取的页面分为两类,列表页和文章页,列表页中包含每个文章页的链接,以及列表页的下一页链接。文章页就是每个博主的页面了。
列表页:
在这里插入图片描述
文章页:
在这里插入图片描述
爬取思路:先爬取列表页,再爬取文章页
这里需要维护两个队列(后面会讲到),一个高优先级队highlevel,列用于存储列表页url,一个低优先级队列lowlevel用于存储文章页,两个队列都是FIFO模式。
1,往highlevel中插入起始的列表页url。
2,从highlevel取出url,爬取到当前列表页的下一页url,并存入highlevel,爬取当前列表页中文章页的url,并存入lowlevel中。
3,重复步骤2,直到highlevel中无列表页的url。
4,在步骤3后,就可以从lowlevel中取文章页url,下载页面,解析后存入数据库中。

需要解决问题
1,模拟登陆,找人页面需要登录微博账号后才可以访问。
2,两个url队列如何维护?
3,文章页面下载,解析,存储?

未完待续,后面的博客会有解决上述问题的方法,欢迎大家评论讨论!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值