1、导读
Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度平台,致力于解决数据处理流程中错综复杂的依赖关系,使得调度系统在数据处理流程中开箱即用。自 2019 年开源以来,得益于其自身的稳定性、易用性、扩展性和完备的功能备受关注,笔者收集了一些业界案例:
-
有赞:全面从 Airflow 迁移到 DolphinScheduler,日均调度 6w+ 任务实例;
-
360数科:全面从 Azkaban 迁移到 DolphinScheduler,日均调度 1w+ 任务实例;
-
Fordeal:全面从 Azkaban 迁移到 DolphinScheduler,日均调度 3500+ 工作流实例、1.5w+ 任务实例;
-
新网银行:借助 DolphinScheduler 调度实时跑批、准实时跑批和指标管理系统的离线跑批,日均 9000+ 任务实例;
-
中国联通:借助 DolphinScheduler 调度处理 Spark/Flink/SeaTunnel 等作业,业务涵盖稽核、收入分摊、计费业务,日均调度 300+ 工作流实例、5000+ 任务实例,业务覆盖 3 地 4 集群;
-
T3出行:结合 DolphinScheduler + Kyuubi on Spark,日均处理 3w+ 离线调度任务、300+ Spark Streaming 任务、100+ Flink 任务、500+ Kylin、ClickHouse 和 Shell 任务;
-
联通数科:借助 DolphinScheduler 调度大数据调度任务和数仓计算任务(如 Spark/Flink 等),日均调度 1w+ 工作流实例、7w+ 个任务实例、集群规模 80+ 个节点;
-
联通医疗:基于 DolphinScheduler 构建了涵盖数据采集、同步、处理和治理为一体的大数据平台,日均调度 6000+ 任务实例;
-
伊利集团:借助 DolphinScheduler 构建了一个统一的数据集成、开发、调度和运维的多云大数据平台,日均调度任务数达到 1.3 万个,每日搬迁 8000+ 张表,集群规模 15 个节点,涉及 4 朵云(阿里云+腾讯云+京东云+自建云),80 多个业务系统;
本文是基于 3.0.0-release 正式版本分析讨论,笔者水平有限,若有不当之处,请不吝指正。
2、业界主流产品对比
开源社区 |
组织 |
Apache |
美团点评 |
|
Airbnb |
基于阿里开源调度系统(zeus)二次开发 |
活跃度 |
极高 |
高 |
低 |
低 |
极低 |
|
文档 |
完善 |
完善 |
完善 |
完善 |
完善 |
|
Github热度 |
9.9k Stars |
22.7k Stars |
4.1k Stars |
27.8k Stars |
600 Stars |
|
开发语言 |
Java |
Java |
Java |
Python |
Java |
|
稳定性 |
单点问题 |
✕ |
✕ |
✕ |
✓ |
✓ |
高可用 |
✓ |
✓ |