爬虫集群部署：Scrapyd 框架深度解析

本文链接：https://blog.csdn.net/weixin_52392194/article/details/141033985

🕵️‍♂️ 爬虫集群部署：Scrapyd 框架深度解析

🛠️ Scrapyd 环境部署

Scrapyd 是一个开源的 Python 爬虫框架，专为分布式爬虫设计。它允许用户在集群中调度和管理爬虫任务，并提供了简洁的 API 进行控制。以下是 Scrapyd 环境部署的详细步骤。

环境部署:

安装 Scrapyd:
首先，需要安装 Scrapyd。可以通过 pip 安装：
```
pip install scrapyd
```
启动 Scrapyd 服务:
安装完成后，可以通过以下命令启动 Scrapyd 服务：
```
scrapyd
```
默认情况下，Scrapyd 服务会在 http://localhost:6800 启动。可以在浏览器中访问这个地址，检查服务是否正常运行。
配置 Scrapyd:
Scrapyd 的配置文件 scrapyd.conf 位于 /etc/scrapyd/scrapyd.conf，可以根据需要进行配置。以下是一个基本的配置示例：
```
[scrapyd]
bind_address = 0.0.0.0
http_port = 6800
```
在配置文件中，可以设置 Scrapyd 的绑定地址和端口。
项目上传:
要将爬虫项目上传到 Scrapyd，可以使用 scrapyd-client 工具。首先安装 scrapyd-client：
```
pip install scrapyd-client
```
然后使用以下命令将项目上传到 Scrapyd：
```
scrapyd-client deploy
```
这会将项目上传到 Scrapyd 服务中，以便进行任务调度和管理。

示例代码:

# 启动 Scrapyd 服务
scrapyd

# 上传项目
scrapyd-client deploy

在这个示例中，启动 Scrapyd 服务并上传爬虫项目。

🧠 Scrapyd 原理讲解

Scrapyd 是一个基于 Python 的爬虫调度系统，它的核心是任务调度和爬虫管理。以下是 Scrapyd 原理的详细讲解。

Scrapyd 原理:

任务调度:
Scrapyd 使用队列机制调度爬虫任务。用户提交的任务被放入任务队列中，Scrapyd 根据队列的任务安排爬虫的执行顺序。每个任务都包含了爬虫名称、起始 URL 和其他参数。
爬虫管理:
Scrapyd 提供了 API 进行爬虫的管理，包括启动、停止和查询爬虫状态。爬虫在运行时，Scrapyd 会记录爬虫的运行日志和结果，并提供 API 进行访问。
数据存储:
爬虫抓取的数据可以存储在本地文件系统或数据库中。Scrapyd 支持将爬虫结果存储到指定的文件夹中，并提供了 API 进行数据的访问和下载。
分布式支持:
Scrapyd 可以与多个爬虫实例协同工作，实现分布式爬取。通过将任务分配到不同的实例，Scrapyd 实现了负载均衡和高可用性。

示例代码:

# 启动 Scrapyd 服务
import requests

def start_spider(spider_name):
    url = 'http://localhost:6800/schedule.json'
    data = {
        'project': 'myproject',
        'spider': spider_name
    }
    response = requests.post(url, data=data)
    return response.json()

print(start_spider('my_spider'))

在这个示例中，start_spider 函数通过调用 Scrapyd 的 API 启动一个爬虫任务。

🔄 Scrapyd API 处理爬虫

Scrapyd 提供了一组 RESTful API，用于控制和管理爬虫任务。以下是 Scrapyd API 的详细处理方法。

Scrapyd API:

启动爬虫:
使用 schedule.json API 启动爬虫任务。请求参数包括项目名称、爬虫名称和其他参数。

import requests

def schedule_spider(project, spider):
    url = 'http://localhost:6800/schedule.json'
    data = {
        'project': project,
        'spider': spider
    }
    response = requests.post(url, data=data)
    return response.json()

查询任务状态:
使用 list_jobs.json API 查询当前的任务状态。可以获取到任务的运行状态、开始时间和结束时间等信息。

def list_jobs(project):
    url = f'http://localhost:6800/list_jobs.json?project={project}'
    response = requests.get(url)
    return response.json()

停止任务:
使用 cancel.json API 停止正在运行的任务。需要提供任务 ID 作为参数。

def cancel_task(job_id):
    url = f'http://localhost:6800/cancel.json'
    data = {
        'jobid': job_id
    }
    response = requests.post(url, data=data)
    return response.json()

示例代码:

import requests

def start_spider(spider_name):
    url = 'http://localhost:6800/schedule.json'
    data = {
        'project': 'myproject',
        'spider': spider_name
    }
    response = requests.post(url, data=data)
    return response.json()

def list_jobs(project):
    url = f'http://localhost:6800/list_jobs.json?project={project}'
    response = requests.get(url)
    return response.json()

def cancel_task(job_id):
    url = f'http://localhost:6800/cancel.json'
    data = {
        'jobid': job_id
    }
    response = requests.post(url, data=data)
    return response.json()

print(start_spider('my_spider'))
print(list_jobs('myproject'))
print(cancel_task('job_id'))

在这个示例中，提供了启动爬虫、查询任务状态和停止任务的 API 调用方法。

📅 Scrapyd 多任务管理

Scrapyd 支持管理和调度多个爬虫任务。通过配置和 API 调用，可以实现对多个任务的管理，包括启动、停止和监控任务。

多任务管理:

任务调度:
可以使用 Scrapyd 的调度 API 启动多个爬虫任务。每个任务可以设置不同的参数和调度策略。
任务监控:
使用 Scrapyd 的 API 查询任务状态，获取任务的进度和日志信息。可以通过定期检查任务状态来实现监控。
任务停止:
使用 Scrapyd 的停止 API 停止指定的任务。可以根据需要停止单个任务或批量任务。

示例代码:

import requests
import time

def start_multiple_spiders(spiders):
    for spider in spiders:
        response = start_spider(spider)
        print(f'Started {spider}: {response}')

def monitor_jobs(project):
    while True:
        jobs = list_jobs(project)
        for job in jobs.get('running', []):
            print(f'Job ID: {job["id"]}, Status: {job["status"]}')
        time.sleep(60)

def stop_jobs(job_ids):
    for job_id in job_ids:
        response = cancel_task(job_id)
        print(f'Cancelled Job ID {job_id}: {response}')

spiders = ['spider1', 'spider2']
start_multiple_spiders(spiders)
monitor_jobs('myproject')
stop_jobs(['job_id1', 'job_id2'])

在这个示例中，start_multiple_spiders 启动多个爬虫任务，monitor_jobs 定期监控任务状态，stop_jobs 停止指定的任务。

⏰ 拓展：定时任务机制

定时任务机制是指在特定的时间点或周期内自动触发任务。Scrapyd 本身不直接支持定时任务，但可以通过与外部工具结合使用实现定时调度。

实现定时任务:

使用 Cron 任务调度:
在 Unix 系统中，可以使用 Cron 任务调度工具来实现定时执行任务。可以设置定时任务来调用 Scrapyd 的 API 启动爬虫。
```
# 编辑 Cron 配置
crontab -e

# 添加定时任务
0 2 * * * /usr/bin/curl -X POST http://localhost:6800/schedule.json -d project=myproject -d spider=my_spider
```
这个例子中，Cron 将在每天凌晨 2 点触发爬虫任务。
使用任务调度框架:
可以使用 Python 的任务调度框架（如 APScheduler）来实现定时任务调度。通过编

写 Python 脚本来定期触发 Scrapyd API。

```python
from apscheduler.schedulers.blocking import BlockingScheduler
import requests

scheduler = BlockingScheduler()

def trigger_spider():
    url = 'http://localhost:6800/schedule.json'
    data = {
        'project': 'myproject',
        'spider': 'my_spider'
    }
    response = requests.post(url, data=data)
    print(response.json())

scheduler.add_job(trigger_spider, 'interval', hours=1)
scheduler.start()
```

在这个例子中，APScheduler 每小时触发一次 trigger_spider 函数，调用 Scrapyd API 启动爬虫。

使用任务队列:
可以使用任务队列（如 Celery）实现分布式定时任务。通过将定时任务的调度逻辑放入 Celery 任务中，控制任务的执行。

from celery import Celery
import requests

app = Celery('tasks', broker='redis://localhost:6379/0')

@app.task
def trigger_spider():
    url = 'http://localhost:6800/schedule.json'
    data = {
        'project': 'myproject',
        'spider': 'my_spider'
    }
    response = requests.post(url, data=data)
    print(response.json())

# 定时任务调度
app.conf.beat_schedule = {
    'trigger-spider-every-hour': {
        'task': 'tasks.trigger_spider',
        'schedule': 3600.0,
    },
}