在云服务创建一个虚拟环境
```python
virtualenv envname
source 进入虚拟环境
安装scrapyd pip install scrapyd
安装scrapy pip install scrapy
安装scrapy pip install requests
启动命令 scrapyd
需要改一下配置
find -name default_scrapyd.conf 查询文件位置
./lib/python3.5/site-packages/scrapyd/default_scrapyd.conf
一般都是这个路径
\Lib\site-packages\scrapyd中的default_scrapyd.conf:
将bind_address = 127.0.0.1改为bind_address = 0.0.0.0
运行scrapyd 不能关闭程序 注意~~~
将工程打包
安装pip install scrapyd-client 打包工具
cd 到项目工程目录下 执行 scrapyd-deploy
出现 default 表示成功
进入scrapy.cfg文件
将url的路由地址改成ip地址 也可以给deploy加上一个名字 :p1
保持退出 执行 scrapyd-deploy -l
执行打包 scrapy list
如果给爬虫取名了 需要执行一下 scrapyd-deploy 取的名字 -p 项目名
出现 "status": "ok" 就表示打包成功了
执行下面这条语句
curl http://localhost:6800/schedule.json -d project=项目名 -d spider=爬虫名
停止爬虫
curl http://localhost:6800/cancel.json -d project=项目名称 -d job=运行ID
删除scrapy项目
curl http://localhost:6800/delproject.json-d project=scrapy项目名称
```
分布式爬虫
```python
pip install gerapy
安装好之后 执行gerapy可以获得提示
初始化gerapy
gerapy init
会在当前目录下生成一个gerapy的文件夹
生产迁移之后 gerapy migrate
cd进入 将爬虫项目放到改目录下
运行
gerapy runserver 0.0.0.0:8000
```