Gerapy分布式爬虫管理框架详解，国人开发的好用的爬虫框架

许雪凯

于 2018-04-10 16:13:40 发布

阅读量1.1k

点赞数

分类专栏： python爬虫文章标签：爬虫框架爬虫进阶 python爬虫爬虫监控中文框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xu_xuekai/article/details/79882534

版权

从 Scrapy 的部署、启动到监控、日志查看，我们只需要鼠标键盘点几下就可以完成，那岂不是美滋滋？更或者说，连 Scrapy 代码都可以帮你自动生成，那岂不是爽爆了？

有需求就有动力，没错，Gerapy 就是为此而生的，GitHub：https://github.com/Gerapy/Gerapy。

安装

Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发，Gerapy 可以帮助我们：

更方便地控制爬虫运行
更直观地查看爬虫状态
更实时地查看爬取结果
更简单地实现项目部署
更统一地实现主机管理
更轻松地编写爬虫代码

安装非常简单，只需要运行 pip3 命令即可：

pip3 install gerapy

安装完成之后我们就可以使用 gerapy 命令了，输入 gerapy 便可以获取它的基本使用方法：

如果出现上述结果，就证明 Gerapy 安装成功了。

初始化

接下来我们来开始使用 Gerapy，首先利用如下命令进行一下初始化，在任意路径下均可执行如下命令：

执行完毕之后，本地便会生成一个名字为 gerapy 的文件夹，接着进入该文件夹，可以看到有一个 projects 文件夹，我们后面会用到。

紧接着执行数据库初始化命令：

这样我们就可以看到 Gerapy 已经在 8000 端口上运行了。

全部的操作流程截图如下：

接下来我们在浏览器中打开 http://localhost:8000/，就可以看到 Gerapy 的主界面了：

这里显示了主机、项目的状态，当然由于我们没有添加主机，所以所有的数目都是 0。

如果我们可以正常访问这个页面，那就证明 Gerapy 初始化都成功了。

主机管理

接下来我们可以点击左侧 Clients 选项卡，即主机管理页面，添加我们的 Scrapyd 远程服务，点击右上角的创建按钮即可添加我们需要管理的 Scrapyd 服务：

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Gerapy分布式爬虫管理框架详解，国人开发的好用的爬虫框架

从 Scrapy 的部署、启动到监控、日志查看，我们只需要鼠标键盘点几下就可以完成，那岂不是美滋滋？更或者说，连 Scrapy 代码都可以帮你自动生成，那岂不是爽爆了？有需求就有动力，没错，Gerapy 就是为此而生的，GitHub：https://github.com/Gerapy/Gerapy。安装Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapy...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。