python爬虫Pragmatic系列IV

最新推荐文章于 2024-04-23 09:50:49 发布

VIP文章白熊花田

最新推荐文章于 2024-04-23 09:50:49 发布

阅读量1.4k

点赞数

分类专栏： Python爬虫 Python 文章标签：爬虫多线程 python爬虫 regex

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whiterbear/article/details/44759219

版权

python爬虫Pragmatic系列IV

By 白熊花田(http://blog.csdn.net/whiterbear)

说明：

在上一篇博客中，我们已经做到了从赶集网上单个首页中抓取所有的链接，并下载下来，分析后存入Excel中。

本次目标：

在本节中，我们将使用python多线程技术从赶集网上抓取链接并分析，注意，我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的。

分析：

用爬虫统计信息那自然数据越多越好，为了获取更多的数据，我们先研究下如何打开上千个赶集网上公司链接。

打开首页(http://bj.ganji.com/danbaobaoxian/o1/)，在页面底部能够看到一排分页，如下图：

简单分析可以发现其分页链接请求是由A+B形式组成的，A为(http://bj.ganji.com/danbaobaoxian/)，而B为(oi)，其中i为数字。经过验证后发现，i的范围为：[1,300+)。由此，我们就可以利用以上的链接去访问各个首页并获得各个首页中包含的公司页面链接。但是问题来了，一个首页上公司共有九十多家，假设我们抓取十个主页面上公司的链接，每个公司从下载到分析到写入Excel假设需要0.2s，那么共需要180s(=0.2*10*90)。而且当网速差的时候，所需要的时间会更长。由此，我们需要多线程来处理该问题。

学习python多线程可以看这里：w3cshoolPython多线程。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫Pragmatic系列IV

python爬虫Pragmatic系列IV说明：在上一篇博客中，我们已经做到了从赶集网首页上抓取所有的链接，并下载下来，分析后存入Excel中。本次目标：在本节中，我们将使用python多线程技术从赶集网上抓取链接并分析，注意，我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的。分析：用爬虫统计信息那自然数据越多越好，为了获取更多的数据，我们研究下如何打开上千
复制链接

扫一扫

专栏目录

白熊花田 CSDN认证博客专家 CSDN认证企业博客

码龄11年

144: 原创

5万+: 周排名

54万+: 总排名

58万+: 访问

: 等级

4822: 积分

164: 粉丝

100: 获赞

60: 评论

361: 收藏

私信

关注

热门文章

分类专栏

最新评论

使用sklearn进行增量学习
饭团爱吃饭: 你好，请问如何对LSTM深度学习模型进行增量学习呀？是直接在原有模型的基础上对新的数据训练吗？
完美韵脚----让押韵变得简单
ιαν: 很好用！但怎么突然就无法打开了！
完美韵脚----让押韵变得简单
wwwwuziang: ……我是说提议中这种比如a到ang韵只有做mumble处理后才能显得不奇怪，如果做boombap之类的是用不成的，放在韵脚列表里面纯属干扰信息。
完美韵脚----让押韵变得简单
justin3612: http://www.wanmeiyunjiao.com/ 这个链接上午还好的，下午的时候突然刷不进了，麻烦可以看一下咋回事不
使用sklearn进行增量学习
dqz_nihao: 你好，请问你说的这个有什么好的算法吗，

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。