python实现scrapy爬虫每天定时抓取数据

最新推荐文章于 2025-04-11 15:54:29 发布

Kosmoo

最新推荐文章于 2025-04-11 15:54:29 发布

阅读量3.9w

点赞数 29

分类专栏： python爬虫文章标签： python 爬虫自动执行

本文链接：https://blog.csdn.net/zwq912318834/article/details/77806737

版权

本文介绍了如何使用Python实现Scrapy爬虫每天定时抓取数据，通过监控脚本控制爬虫的运行状态，确保每天凌晨00:01启动，24小时内完成任务。涉及环境配置、设计思路、准备工作、实现代码及部署步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python实现scrapy爬虫每天定时抓取数据

1. 前言。

1.1. 需求背景。

每天抓取的是同一份商品的数据，用来做趋势分析。
要求每天都需要抓一份，也仅限抓取一份数据。
但是整个爬取数据的过程在时间上并不确定，受本地网络，代理速度，抓取数据量有关，一般情况下在20小时左右，极少情况下会超过24小时。

1.2. 实现功能。

通过以下三步，保证爬虫能自动隔天抓取数据：
- 每天凌晨00：01启动监控脚本，监控爬虫的运行状态，一旦爬虫进入空闲状态，启动爬虫。
- 一旦爬虫执行完毕，自动退出脚本，结束今天的任务。
- 一旦脚本距离启动时间超过24小时，自动退出脚本，等待第二天的监控脚本启动，重复这三步。

2. 环境。

python 3.6.1
系统：win7
IDE：pycharm
安装过scrapy

3. 设计思路。

3.1. 前提：目前爬虫是通过scrapy模块自带的cmdline.execute来启动的。

from scrapy import cmdline
cmdline.execute('scrapy crawl mySpider'.split())

3.2. 将自动执行脚本做到scrapy爬虫的外部

（1）每天凌晨00：01启动脚本（控制脚本的存活时间为24小时），监测爬虫的运行状态（需要用一个标记信息来表示爬虫的状态：运行还是停止）。
- 如果爬虫处于运行状态（前一天爬取数据尚未结束），进入第（2）步；
- 如果爬虫处于非运行状态（前一天的爬取任务已完成，今天的尚未开始），进入第（3）步；
（2）脚本进入等待阶段，每隔10分钟，检查一下爬虫的运行状态，如（1）。但是一旦发现，脚本的等待时间超过了24小时，则自动退出脚本，因为第二天的监测脚本已经开始运行了，接替了它的任务。
（3）做一些爬虫启动前的准备工作（删除用来续爬的文件，防止爬虫不运行了），启动爬虫爬取数据，待爬虫正常结束后，退出脚本，完成当天的爬取任务。

4. 准备工作。

4.1. 标记爬虫的运行状态。

通过判断文件是否存在的方式来判断爬虫是否处于运行状态：

在爬虫启动时，创建一个isRunning.txt文件。
在爬虫结束时，删除这个isRunning.txt文件。

那么isRunning.txt存在，就说明爬虫正在运行；文件不存在，就说明爬虫不在运行。

# 文件pipelines.py
# 爬虫启动时
checkFile = "isRunning.txt"
class myPipeline:
    def open_spider(self, spider):
        self.client = MongoClient('localhost:27017')

最低0.47元/天解锁文章