[Python3网络爬虫开发实战] Scrapyrt 的使用-CSDN博客

本文链接：https://blog.csdn.net/xuange01/article/details/103436736

本文介绍了如何使用Scrapyrt为Scrapy提供HTTP接口进行爬虫任务调度。无需通过命令行，只需发送GET或POST请求，即可启动远程服务器上的Scrapy项目。内容包括GET请求的参数说明，如spider_name、url、callback和max_requests，以及POST请求的JSON配置示例。Scrapyrt使得远程爬虫任务的管理和获取结果变得更加便捷。

摘要由CSDN通过智能技术生成

Scrapyrt 的使用
Scrapyrt 为 Scrapy 提供了一个调度的 HTTP 接口。有了它我们不需要再执行 Scrapy 命令，而是通过请求一个 HTTP 接口即可调度 Scrapy 任务，我们就不需要借助于命令行来启动项目了。如果项目是在远程服务器运行，利用它来启动项目是个不错的选择。

本节目标
我们以本章 Scrapy 入门项目为例来说明 Scrapyrt 的使用方法，项目源代码地址为：https://github.com/Python3WebSpider/ScrapyTutorial。
准备工作
请确保 Scrapyrt 已经正确安装并正常运行，具体安装可以参考第 1 章的说明。
启动服务
首先将项目下载下来，在项目目录下运行 Scrapyrt，假设当前服务运行在 9080 端口上。下面将简单介绍 Scrapyrt 的使用方法。
GET 请求
目前，GET 请求方式支持如下的参数。

spider_name，Spider 名称，字符串类型，必传参数，如果传递的 Spider 名称不存在则会返回 404 错误。
url，爬取链接，字符串类型，如果起始链接没有定义的话就必须要传递，如果传递了该参数，Scrapy 会直接用该 URL 生成 Request，而直接忽略 start_requests() 方法和 start_urls 属性的定义。
callback，回调函数名称，字符串类型，可选参数，如果传递了就会使用此回调函数处理，否则会默认使用 Spider 内定义的回调函数。
max_requests，最大请求数量，数值类型&