![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Apache Airflow
文章平均质量分 87
屋顶看飞机
专注于分布式系统、大数据的研究及应用
展开
-
Apache Airflow系列文章
Apache Airflow是优秀的 数据流水线耦合工具,在开源世界已经成为了事实上的 工作流调度标准,国外的云厂商都直接提供Airflow的云服务,其开源势头也特别的强劲,预计在 2020年年底推出 2.0版本,届时其性能将更加强大,功能更为丰富,UI更为现代化。下面是我基于实战总结出来的Apache Airflow系列文章,供各位需要的网友参考。1.Airflow部署文档(物理机版本)...原创 2020-10-15 21:00:38 · 1920 阅读 · 3 评论 -
为什么选择Apache Airflow作为调度系统的7大理由
这篇文章主要想阐述使用Apache Airflow作为调度系统的好处,尽可能客观的基于数据来说明情况,避免自夸自擂。0.社区活跃我们从github 的 airflow contributors 页面可以看到2个核心的指标:截至2021年06月06日,Star 数已经达到了21.7k, Fork数达到了8.6k,其代码的commit数目更是逐年递增.在Airflow的github主页面可以看到,现有1,575个用户对airflow进行了贡献。且有400多家公司填写了登记了正在使用Apache Air原创 2021-06-06 20:57:30 · 1635 阅读 · 0 评论 -
Apache Airflow 2.0 新特性一览
今天有空对大约半年前的Apache Airflow 2.0 的Release文档做一个整理,主要的文章的内容来自于Apache Airflow官方的Apache Airflow 2.0 is here!和Astronomer(Apache Airflow云服务提供商)的Introducing Airflow 2.0.主要以官方文档为主,以翻译+注解的方式来说明Apache Airflow 2.0 版本的新特性.A new way of writing dags: the TaskFlow API (AI原创 2021-06-06 17:35:28 · 1955 阅读 · 0 评论 -
02 Apache Airflow 2.0+官方文档导读 Quick Start (快速上手)
Quick Start快速开始指南,这里分为两个小的部分,分别是本地运行及以Docker方式运行Airflow。值得注意的是,这两种方式都只是快速体验airflow的方式,不能够用于生产部署。A.本地运行指南 (单机版)主要内容包括a.Airflow的安装方式(使用pip 执行命令)b.Airflow 启动环境配置(AIRFLOW_HOME, PYTHON_VERSION,CONSTRAINT_URL)c.Airflow 启动命令(airflow db init / airflo原创 2021-05-23 19:45:51 · 1329 阅读 · 1 评论 -
谁在使用Apache Airflow及提供Apache Airflow服务的云厂商
这篇文章给大家介绍一下Apache Airflow的用户情况及提供Apache Airflow服务的云厂商。1.已经登记的使用Apache Airflow的用户我们从github的https://github.com/apache/airflow/blob/master/INTHEWILD.md页面可以看到,截止到2021-05-23号,已经有403家公司填写了相关信息,大多为国外的用户,如Adobe, Airbnb, Bloomberg, Dropbox, Gitlab, HBO, Lyft,..原创 2021-05-23 19:24:09 · 645 阅读 · 0 评论 -
Apache Airflow指标监控实践
Apache Airflow官方提供了statsd的指标采集功能,我们可以基于statsd来监控Airflow集群整体的运行情况,结合Prometheus及Grafana对采集的指标进行展示并设置告警功能,保障Airflow集群在出现故障的时候能够及时的处理。1.Airflow集群指标采集及数据展示整体流程整个采集流程分为3个大的步骤:a.在安装statsd并且在airflow.cfg开启statsd后,Airflow集群会推送相关监控的指标到指定的statsd server中b.我们使原创 2021-05-23 13:07:23 · 3495 阅读 · 0 评论 -
Apache Airflow2.0.2 遇到的问题及解决方案
Airflow2.0.2 问题及解决方案a.测试运行期间发现 airflow scheduler 由于 mysql deadlock 而挂掉的问题_mysql_exceptions.OperationalError: (1213, 'Deadlock found when trying to get lock; try restarting transaction')看了下若干的issue,感觉mysql对airflow scheduler的支持不够好,且考虑到后面要部署多个schedule原创 2021-05-23 10:51:15 · 3195 阅读 · 2 评论 -
Apache Airflow 1.10.9 升级到 2.0.2 版本实践
五一放假回来在我们测试环境对Airflow进行了升级实验,总结出来了这篇文章,供还在使用Airflow1.10版本的各位朋友参考.强烈建议各位使用Airflow的朋友升级到2.0.x版本,实践效果杠杠的.0.注意事项:a.升级之前要备份!要备份!备份!b.升级过程中的操作要进行记录,积累实践的经验,避免重复犯错.1.整体升级流程列表a.查看Upgrading to 2.x 及 Updating.md文档b.现有Airflow情况梳理c.升级到1.10.15 桥接版本d.使原创 2021-05-08 21:35:10 · 2436 阅读 · 1 评论 -
Apache Airflow性能优化相关资源
1. airflow scaling workershttps://www.astronomer.io/guides/airflow-scaling-workers2.airflow 2 schedulerhttps://www.astronomer.io/blog/airflow-2-scheduler3.How Can My Airflow Dag Run Fasterhttps://airflow.apache.org/docs/apache-airflow/stable/faq.原创 2021-04-22 19:42:47 · 459 阅读 · 0 评论 -
00 Apache Airflow 2.0+ 官方文档导读 总体概览
Airflow 官方文档是Apache Airflow最为权威的参考资料,它汇聚了社区众多贡献者的聪明才智,是学习并掌握Airflow的最佳伴侣。这篇文章给大家简要的讲解官方文档中各部分所包含的内容,希望能够帮助大家快速的定位到自己需要的内容,更好的去寻找自己需要的资料。(一) 总体概览首先先放链接 https://airflow.apache.org/docs/apache-airflow/stable/index.html从官方文档的布局来看,主要有5大部分1.当前文档的版本Air原创 2021-04-11 21:51:12 · 830 阅读 · 0 评论 -
Apache Airflow 资源汇总
----文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----Apache Airflow已经进入了2.0时代了,相关的中文资源还是比较缺少,有空整理一下我所了解到的Airflow的相关资源,供大家参考。资源的优先级由上至下依次列出,解决问题查找资料时,请先查看官方资源相关的第一手资料,其次再使用slack / email / github issue 等方式直接与开源社区沟通,以获得最专业的指导,再其次可以与中文社区相关的成员进行沟通,以获得一些前人的经验方面的信息。原创 2021-04-11 21:15:45 · 775 阅读 · 0 评论 -
01 Apache Airflow 2.0+ 官方文档导读 各部分内容简介
---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----(二) 各部分内容简介接着我将围绕者文档目录结构,逐篇的对文档进行简要说明。1. Home主页对Airflow对功能及其特性做了概要性对描述关于Airflow是什么,给出了明确对定义:Airflow is a platform to programmatically author, schedule and monitor workflows.(Airflow是一个可以通过编程来编写,调度及监控原创 2021-04-11 21:12:05 · 428 阅读 · 1 评论 -
Apache Airflow数仓持续发布实践
0.数仓持续发布整体流程开发在特性分支完成开发,合并代码到各个环境的分支 feat -> sit/prd在 sit可以不设置权限控制,让开发自行合并,prd环境需要设置权限控制,需要进行code review后才能进行合并。经过代码审核后,审核人员在gitlab上点击merge request 按钮,随即触发gitlab webhook发出http请求,然后通过 airflow-gitlab-webhook 插件触发 代码同步的dag, 在该dag中使用git pull命令拉去代码,即可实原创 2020-10-22 21:55:55 · 1126 阅读 · 8 评论 -
Apache Airflow部署文档(物理机版本)
0.airflow架构从开发的角度出发来看,使用Local Execultor的基础 Airflow架构是一个绝佳的理解Apache Airflow架构的起点。以下是airflow 主要组件的说明: 元数据库(Metadata Database): Airflow使用 SQL 数据库 来存储关于 数据流水线运行相关的元数据信息。在图片下方,元数据库由在Airflow当中很受欢迎的Postgres来表示。Airflow也支持MySQL作为其元数据库。 Web服务器和调度器(Web原创 2020-10-15 20:52:33 · 1112 阅读 · 0 评论