[954]gerapy配合scrapyd监控爬虫

github:https://github.com/Gerapy/Gerapy

简介与安装

Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发。

特点:

  • 更方便地控制爬虫运行
  • 更直观地查看爬虫状态
  • 更实时地查看爬取结果
  • 更简单地实现项目部署
  • 更统一地实现主机管理
  • 更轻松地编写爬虫代码(几乎没用,感觉比较鸡肋)

创建新文件夹:WORK_GERAPY ——> 在此路径下运行cmd命令行,

安装

pip install gerapy

#gerapy 判断是否安装成功
C:\Users\WYXCz>gerapy
Usage: gerapy.exe [-v] [-h]  ...

Gerapy 0.9.6 - Distributed Crawler Management Framework

Optional arguments:
  -v, --version       Get version of Gerapy
  -h, --help          Show this help message and exit

Available commands:
    init              Init workspace, default to gerapy
    initadmin         Create default super user admin
    runserver         Start Gerapy server
    migrate           Migrate database
    createsuperuser   Create a custom superuser
    makemigrations    Generate migrations for database
    generate          Generate Scrapy code for configurable project
    parse             Parse project for debugging
    loaddata          Load data from configs
    dumpdata          Dump data to configs

使用

初始化项目

输入:gerapy init
执行完这个命令后会自动创建一个gerapy的文件夹

初始化数据库

命令行输入: cd gerapy
在输入:gerapy migrate
执行完会在自动创建一个 db.sqlite3 文件 和 project文件夹
这条命令是创建数据表 创建的数据库是sqlite3

运行gerapy服务

命令输入:gerapy runserver

这要命令必须新生成的gerapy文件夹只用,否则以前创建的项目都看不奥到

直接键入命令就可以启动项目 默认地址为:127.0.0.1:8000
如果需要指定端口及允许其他人访问则在命令后 加入 0.0.0.0:port
示例:gerapy runserver 0.0.0.0:8200

(注意:需要在cmd启动 scrapyd)

到这里gerapy已经启动了

访问gerapy界面

打开浏览器:访问管理平台界面 http://localhost:8000

如果不存在登录账号密码,则需在命令行中创建
gerapy createsuperuser # 后续根据提示输入账号、邮箱、密码即可

image.png

gerapy管理界面的使用

部署主机

就是配置我们scrapyd 远程服务.(指定远程服务器的ip和端口等等)
image.png

需要添加 IP、端口,以及名称,点击创建即可完成添加,点击返回即可看到当前添加的 Scrapyd 服务列表

image.png

如果想执行爬虫,就点击调度.然后运行.
前提是: 我们配置的scrapyd中,已经发布了 爬虫.

image

Gerapy 与 scrapyd 有什么关联吗?

我们仅仅使用scrapyd是可以调用scrapy进行爬虫. 只是 需要使用命令行开启爬虫

curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬虫名

使用Greapy就是为了将使用命令行开启爬虫变成 “小手一点”. 我们在gerapy中配置了scrapyd后,不需要使用命令行,可以通过图形化界面直接开启爬虫.

部署项目

我们就可以把我们写好的爬虫文件放在生成的文件夹gerapy下projects内,然后刷新网页就可以发现项目就在里边了

image

然后我们点击部署按钮就可以进行打包和部署了,描述是自定义的,这个只会在gerapy上显示,然后会提示我们打包成功,同时左侧会显示打包的结果和打包的名称。

image

image

打包成功后我们就可以在进行部署了,如果有多个主机的话,我们就需要选择部署的主机,点击后边部署按钮,也可以同时批量选择主机进行部署。

然后我们就可以在主机的项目页面点击主机,看到爬虫的运行状态,并且不用在cmd中输入命令,通过点击就可以让爬虫

运行,停止,并且查看运行状态。

image

最后,gerapy也支持在其网页上自建爬虫项目,具体这里就不介绍了。

参考:https://www.imooc.com/article/266177
https://www.cnblogs.com/blacktusz/p/12935631.html
https://blog.csdn.net/Scream28/article/details/103293484
https://www.cnblogs.com/tjp40922/p/10796732.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周小董

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值