Spider学习笔记(六):爬虫部署

在云服务创建一个虚拟环境

```python
virtualenv envname

source 进入虚拟环境

安装scrapyd  pip install scrapyd

安装scrapy  pip install scrapy

安装scrapy  pip install requests

启动命令 scrapyd 

需要改一下配置
find -name default_scrapyd.conf 查询文件位置

./lib/python3.5/site-packages/scrapyd/default_scrapyd.conf
一般都是这个路径

\Lib\site-packages\scrapyd中的default_scrapyd.conf:
将bind_address = 127.0.0.1改为bind_address = 0.0.0.0

运行scrapyd  不能关闭程序  注意~~~

将工程打包

安装pip install scrapyd-client 打包工具

cd 到项目工程目录下 执行 scrapyd-deploy  

出现 default 表示成功

进入scrapy.cfg文件

将url的路由地址改成ip地址  也可以给deploy加上一个名字 :p1

保持退出  执行 scrapyd-deploy -l

执行打包  scrapy list

如果给爬虫取名了 需要执行一下  scrapyd-deploy 取的名字 -p 项目名

出现 "status": "ok"  就表示打包成功了

    
执行下面这条语句
curl http://localhost:6800/schedule.json -d project=项目名 -d spider=爬虫名

        
停止爬虫    
curl http://localhost:6800/cancel.json  -d project=项目名称 -d job=运行ID

删除scrapy项目
curl http://localhost:6800/delproject.json-d project=scrapy项目名称
```

分布式爬虫

```python
pip install gerapy

安装好之后 执行gerapy可以获得提示
初始化gerapy
gerapy init

会在当前目录下生成一个gerapy的文件夹

生产迁移之后  gerapy migrate

cd进入 将爬虫项目放到改目录下

运行
gerapy runserver 0.0.0.0:8000
```

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值