[Python3网络爬虫开发实战] Scrapyrt 的使用

本文介绍了如何使用Scrapyrt为Scrapy提供HTTP接口进行爬虫任务调度。无需通过命令行,只需发送GET或POST请求,即可启动远程服务器上的Scrapy项目。内容包括GET请求的参数说明,如spider_name、url、callback和max_requests,以及POST请求的JSON配置示例。Scrapyrt使得远程爬虫任务的管理和获取结果变得更加便捷。
摘要由CSDN通过智能技术生成

Scrapyrt 的使用
Scrapyrt 为 Scrapy 提供了一个调度的 HTTP 接口。有了它我们不需要再执行 Scrapy 命令,而是通过请求一个 HTTP 接口即可调度 Scrapy 任务,我们就不需要借助于命令行来启动项目了。如果项目是在远程服务器运行,利用它来启动项目是个不错的选择。

  1. 本节目标
    我们以本章 Scrapy 入门项目为例来说明 Scrapyrt 的使用方法,项目源代码地址为:https://github.com/Python3WebSpider/ScrapyTutorial。

  2. 准备工作
    请确保 Scrapyrt 已经正确安装并正常运行,具体安装可以参考第 1 章的说明。

  3. 启动服务
    首先将项目下载下来,在项目目录下运行 Scrapyrt,假设当前服务运行在 9080 端口上。下面将简单介绍 Scrapyrt 的使用方法。

  4. GET 请求
    目前,GET 请求方式支持如下的参数。

spider_name,Spider 名称,字符串类型,必传参数,如果传递的 Spider 名称不存在则会返回 404 错误。
url,爬取链接,字符串类型,如果起始链接没有定义的话就必须要传递,如果传递了该参数,Scrapy 会直接用该 URL 生成 Request,而直接忽略 start_requests() 方法和 start_urls 属性的定义。
callback,回调函数名称,字符串类型,可选参数,如果传递了就会使用此回调函数处理,否则会默认使用 Spider 内定义的回调函数。
max_requests,最大请求数量,数值类型&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值