Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。
近日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software Foundation)的孵化器,成为 ASF 的一个孵化项目。
根据 Apache 软件基金会投票结果邮件显示,共包含了15个约束性投票(binding votes)和19个非约束性投票(non-binding votes)。所有的投票结果均为赞成,没有弃权票或反对票。
01
Amoro 是什么?
Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。长久以来,在 Hadoop、Spark、Flink、Trino 这些开源开放、扩展性极强的生态项目加持下,湖仓成为企业数字化转型中的重要选型。然而湖仓的复杂度,技术门槛导致在企业落地成本依然居高不下。Amoro 旨在向上提供开箱即用的湖仓管理能力,管理系统一词来源于 DBMS(Database Management System)中的 MS,希望 Amoro 可以像数据库的管理系统一样,把湖仓的复杂留给系统,简单留给产品和用户。
Amoro 的功能归纳为以下几点:
提供统一的 Catalog 服务,对齐 Hive Metastore,Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓。
提供全托管的湖仓维护功能(Maintenance Function),包括但不限于数据自优化、数据过期、快照清理、元数据同步等。不同于引擎端实现,Amoro 希望通过全托管的湖仓维护功能打造数据在不同引擎之间的高可用性和开箱即用。
向下支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。
提供开箱即用的管理工具,包括但不限于 DSL 指令、Metrics、Dashboard。
Amoro 自 2022 年 8 月对外开源以来,Amoro 一共有19个上线用户,62位贡献者。
(* 部分上线用户)
(* 部分贡献者)
更多有关 Amoro 的特性和适用的场景可以参考:
项目官网:(将迁移至 下 )
02
未来规划
Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式的基础功能,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来:
降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极瘦身,让湖仓不再成为互联网企业的专宠。
通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变简单开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得好玩,帮业务清楚湖仓落地在降本增效,性能优化等各方面的价值。
在接下来的 1-2 年,社区将专注于:
打磨全托管 Function 的框架和能力,支持业务按需求扩展,持续优化 Built-in Function 功能,突出如数据自优化功能与对标方案上的性能和成本优势。
以社区驱动的方式持续完善 Paimon、 Iceberg 的对接能力,按需求对接新的 Format。
面向管理的各类 DSL 指令实现,帮助产品更好集成。
Metrics 以及其他管理功能的完善。