基本概念
一个DAG=很多个task
- Scheduler / 调度器
是一种使用DAG定义结合元数据中的任务状态来决定哪些任务需要被执行以及任务执行优先级的过程。通常作为服务运行。 - WebServer / Web服务器
提供图形界面,可以监控DAG运行状态,也可对DAG操作。使用的是Gunicorn框架。 - Metadata Database / 元数据库
默认为SQLite,可以支持MySQL,PostgreSQL。存储所有的DAG,任务定义,运行的历史,用户,权限等等。 - Worker
用来执行Executor接收的任务。这些是实际执行任务逻辑的进程,由正在使用的执行器确定。 - Scheduler
The Airflow scheduler monitors all tasks and DAGs, then
triggers the task instances once their dependencies are complete. Behind the scenes, the scheduler spins up a subprocess, which monitors and stays in sync with all DAGs in the specified DAG directory. Once per minute, by default, the scheduler collects DAG parsing results and checks whether any active tasks can be triggered
监视所有任务和 DAG,然后在任务实例的依赖关系完成后触发任务实例。在后台,计划程序启动一个子进程,该子进程监视指定 DA