linux部署scrapyd+scrapydweb
在公司内网服务器上部署scrapyd和scrapydweb。
项目目录
需要自己创建,名字自定义
/kgdata/baike/document:项目目录
项目目录下的文件:
content:爬虫抓取的内容
projectscrapyd:scrapyd运行目录和日志所在位置
scrapydweb: scrapydweb运行目录
scrapydproject:scrapy项目目录
scrapyd安装部署
参考:https://blog.csdn.net/qq_1290259791/article/details/82913925
安装必要包:
pip install scrapyd
pip install scrapyd-client
配置文件
在 /etc 创建scrapyd文件
在 /etc/scrapyd 新建配置文件/scrapyd.conf, Scrapyd在运行的时候会读取此配置文件。
官方conf文件https://scrapyd.readthedocs.io/en/stable/config.html
max_proc_per_cpu = 10 表示每个cpu运行10个爬虫,默认是4。
运行scrapyd
projectscrapyd 目录下运行 scrapyd
会生成 logs eggs dbs twistd.pid (eggs_dir,logs_dir,dbs_dir,配置文件的地址写的projectscrapyd才会生成logs eggs dbs,否则只有 twistd.pid)
查看界面
打开http://127.0.0.1:6800
scrapydweb 安装部署
pip 安装
pip install scrapydweb
scrapydweb 运行 (scrapydweb先运行)
在scrapydweb目录下运行命令 scrapydweb (首次启动将自动在当前工作目录生成配置文件)
文件名称:scrapydweb_settings_v8.py
scrapydweb配置文件
参考:https://blog.csdn.net/xyb1206/article/details/89395316
运行界面
打开地址:http://127.0.0.1:6800
Logparser 日志文件解析
能解析日志文件,把item数量写在web界面
安装Logparser
pip install Logparser
运行
logparser -dir /kgdata/baike/document/projectscrapyd/logs (目录是日志地址)