Airflow安装部署
新闻信息是通过爬虫获取,使用scrapy框架进行爬虫任务;使用airflow工作流监控平台对爬虫任务进行管理、监控(可使用CeleryExecutor分布式,也可使用LocalExecutor多进程进行数据采集)。以下主要是对airflow的安装和配置。
1.系统环境
目前使用的系统环境为Centos Linux release 7.4.1708 (core)
,linux
版本的内核Linux version 3.10.0-693.2.2e17.x86_64
.
ip 地址:
- 外网:
47.104.191.52
- 内网:
172.31.178.92
2.准备python环境,安装Anaconda
2.1下载安装文件
下载对应版本安装文件
2.2上传安装文件,开始安装
将下载的文件上传到Linux系统中 /opt
1、执行命令安装
cd /opt
sh Anaconda3-5.2.0-Linux-x86_64.sh
(按回车键,直到出现>>> 输入yes)
/opt/anaconda3
(安装目录)
2、配置环境变量
echo "export PATH=/opt/anaconda3/bin:$PATH" >> /etc/profile
source /etc/profile
3.安装mysql (供airflow使用)、redis
mysql作为airflow数据库,主要是记录airflow信息;
redis作为celery的broker和backend(也可以用RabbitMQ),如果不使用CeleryExecutor则不需要redis配置。
4.安装配置airflow
通过
anaconda
安装虚拟环境news_push
/opt/anaconda3/bin/conda create -y --name news_push python=3.6.5
airflow安装、配置
激活虚拟环境
news_push
source activate news_push
通过pip安装airflow
pip install airflow
配置airflow目录(先创建/opt/NewsPush项目目录)
echo "export AIRFLOW_HOME=/opt/NewsPush/airflow >> /etc/profile"
source /etc/profile
初始化数据库
airflow initdb
启动airflow
airflow webserver -p 5556
可到浏览器查看http://ip:5556/admin/
配置
airflow
-更改数据库为mysql
- 登录mysql
mysq