【Python】爬虫：微博找人页面爬虫（一）

最新推荐文章于 2024-08-09 08:06:10 发布

杨jun坚

最新推荐文章于 2024-08-09 08:06:10 发布

阅读量3.7k

点赞数

分类专栏： Python 文章标签：微博爬虫 Python 爬虫微博大V

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangjjuan/article/details/99171729

版权

Python 专栏收录该内容

38 篇文章 4 订阅

订阅专栏

【Python】爬虫：微博找人页面爬虫（一）

最近想通过爬去微博上大V信息来做爬虫练手，于是，在微博-找人页面，看到有许多分类，并且里面都是些大V，页面：https://d.weibo.com/1087030002_417#
在这里插入图片描述
上面有许多分类，所以想爬取从明星后的所有分类，共有50个大类，每个大类下有各自的小类，这次就按大类进行爬取。

每种大类下面，都包含一定数量的列表页，有的分类下面是空的，不过也不影响。

爬取思路

将爬取的页面分为两类，列表页和文章页，列表页中包含每个文章页的链接，以及列表页的下一页链接。文章页就是每个博主的页面了。
列表页：
在这里插入图片描述
文章页：

爬取思路：先爬取列表页，再爬取文章页
这里需要维护两个队列（后面会讲到），一个高优先级队highlevel，列用于存储列表页url，一个低优先级队列lowlevel用于存储文章页，两个队列都是FIFO模式。
1，往highlevel中插入起始的列表页url。
2，从highlevel取出url，爬取到当前列表页的下一页url，并存入highlevel，爬取当前列表页中文章页的url，并存入lowlevel中。
3，重复步骤2，直到highlevel中无列表页的url。
4，在步骤3后，就可以从lowlevel中取文章页url，下载页面，解析后存入数据库中。

需要解决问题
1，模拟登陆，找人页面需要登录微博账号后才可以访问。
2，两个url队列如何维护？
3，文章页面下载，解析，存储？

未完待续，后面的博客会有解决上述问题的方法，欢迎大家评论讨论！！！

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。