爬虫部署

最新推荐文章于 2023-07-02 20:12:11 发布

weixin_43706470

最新推荐文章于 2023-07-02 20:12:11 发布

阅读量245

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_43706470/article/details/101168030

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

**爬虫部署需要先下载插件*

pip3 install scrapyd
scrapyd：是运行scrapy爬虫的的服务程序，它支持以http命令方式发布，删除，启动，停止爬虫程序。而且，scrapyd可以同时管理多个爬虫还可以有多个版本

pip3 install scrapyd-client
scrapyd-client：是发布爬虫需要使用的另一个专用共具，就是将代码打包为EGG文件，其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成

安装完可以用检测是否安装成功
scrapyd-deploy -h

本地部署

项目部署相关命令：注意这里是项目的名称而不是工程的名称
scrapyd-deploy -p <项目名称>
也可以指定版本号：
scrapyd-deploy -p <项目名称> --version <版本号>
运行：
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider
暂停：
curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444
delproject.json 删除项目：
curl http://localhost:6800/delproject.json -d project=myproject

远端部署

安装scrapyd: pip3 install scrapyd
安装scrapyd-client: pip3 install scrapyd-client
添加爬虫运行的三方库：
pip3 install requests
pip3 install pymysql
pip3 install pymongodb

修改scrapyd的配置文件，允许外网访问
查找配置文件的路径：find -name default_scrapyd.conf
修改配置文件: sudo vim 路径
注意:此时启动scrapayd服务6800端口还不能访问,需要把ind_address改为ind_address = 0.0.0.0
要去服务器安全组配置
进入服务安全组选项添加安全组
添加成功后，点击修改规则，添加如下信息(配置目的:允许访问6800端口)
完成后返回到云主机菜单，找到配置安全组菜单，跟换为刚才添加的安全组
之后跟上面的部署步骤一样
gerapy使用：
Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发，Gerapy 可以帮助我们

更方便地控制爬虫运行
更直观地查看爬虫状态
更实时地查看爬取结果
更简单地实现项目部署
更统一地实现主机管理
提供在线编辑代码功能

.
gerapy下载
pip3 install gerapy
查看是否安装成功
gerapy
初始化gerapy
gerapy init
进入到gerapy文件夹之下
执行：
erapy migrate
运行gerapy服务：
gerapy runserver

weixin_43706470

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫部署

*爬虫部署需要先下载插件pip3 install scrapydscrapyd：是运行scrapy爬虫的的服务程序，它支持以http命令方式发布，删除，启动，停止爬虫程序。而且，scrapyd可以同时管理多个爬虫还可以有多个版本pip3 install scrapyd-clientscrapyd-client：是发布爬虫需要使用的另一个专用共具，就是将代码打包为EGG文件，其次需要将...
复制链接

扫一扫