time函数控制爬虫的节奏

最新推荐文章于 2022-05-25 15:00:58 发布

Maggie liu

最新推荐文章于 2022-05-25 15:00:58 发布

阅读量2k

点赞数 1

分类专栏： python爬虫文章标签：爬虫节奏 time函数

本文链接：https://blog.csdn.net/weixin_44450823/article/details/91394818

版权

python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

网站对爬虫的限制，最主要依赖于每个IP（或每个用户）的访问频次，过高频率的访问会被网站限制访问，因此我们应该针对每个目标地址的访问频率限定。
常用方法是设置间隔时间，抓取网页之后，停顿固定时间之后，再次进行抓取。
例子如下：
首先编写一个模块文件规定网页抓取间隔时间，命名为global_var.py，

headers = {
你抓取网页的headers
}

crawl_interval = 2.5 #定义网页抓取时间间隔为2.5s

除了导入刚刚编写成的模块之外，还要导入模块time利用sleep函数暂停给定的秒数后执行程序，

import time
import global_var

time.sleep(global_var.crawl_interval) #和requests一起写进函数，只不过它放在最后面

其他步骤和普通的爬虫一样。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Maggie liu

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
time函数控制爬虫的节奏

网站对爬虫的限制，最主要依赖于每个IP（或每个用户）的访问频次，过高频率的访问会被网站限制访问，因此我们应该针对每个目标地址的访问频率限定。常用方法是设置间隔时间，抓取网页之后，停顿固定时间之后，再次进行抓取。例子如下：首先编写一个模块文件规定网页抓取间隔时间，命名为global_var.py，headers = {你抓取网页的headers}crawl_interval = 2....
复制链接

扫一扫