- 博客(1)
- 收藏
- 关注
原创 一个简单的分布式的知乎爬虫
源代码地址:https://github.com/WiseDoge/ZhiHu_Spider一个分布式的网络爬虫,用于抓取知乎的用户详细信息,包括用户名、行业、位置、毕业院校、介绍、关注者、关注人等。 原理 主机 负责分发任务。从起始位置开始,将当前用户的所有关注者提取出来,并压入Redis任务队列,然后随机的进入到其中一个关注者的主页,递归上述操作。 从机 负责抓取网页。连接至Redis
2016-09-16 22:23:45 4795
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人