湖仓管理系统 Amoro 进入 Apache 孵化器

最新推荐文章于 2024-09-18 17:34:52 发布

yixiaoerguo999

最新推荐文章于 2024-09-18 17:34:52 发布

阅读量59

点赞数

文章标签：数据仓库

原文链接：https://blog.yyyyb.net/315477898/viewspace-3009800/

版权

Amoro作为基于ApacheIceberg的湖仓管理系统，通过ApacheSoftwareFoundation的孵化，旨在提供开箱即用的管理服务，降低湖仓复杂度。其功能涵盖统一Catalog、全托管维护和多格式支持，未来将聚焦于全托管功能的扩展和数据湖自治的实现。

摘要由CSDN通过智能技术生成

Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统，提供了一套可插拔的数据自优化机制和管理服务，旨在为用户带来开箱即用的湖仓使用体验。

近日，Amoro 项目顺利通过投票，正式进入 Apache 软件基金会(ASF，Apache Software Foundation)的孵化器，成为 ASF 的一个孵化项目。

根据 Apache 软件基金会投票结果邮件显示，共包含了15个约束性投票(binding votes)和19个非约束性投票(non-binding votes)。所有的投票结果均为赞成，没有弃权票或反对票。

Amoro 是什么?

Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。长久以来，在 Hadoop、Spark、Flink、Trino 这些开源开放、扩展性极强的生态项目加持下，湖仓成为企业数字化转型中的重要选型。然而湖仓的复杂度，技术门槛导致在企业落地成本依然居高不下。Amoro 旨在向上提供开箱即用的湖仓管理能力，管理系统一词来源于 DBMS(Database Management System)中的 MS，希望 Amoro 可以像数据库的管理系统一样，把湖仓的复杂留给系统，简单留给产品和用户。

Amoro 的功能归纳为以下几点：

提供统一的 Catalog 服务，对齐 Hive Metastore，Rest catalog 等开源标准，支持集成 Glue 等商业元仓，帮助引擎和产品构建流批统一的元仓。

提供全托管的湖仓维护功能(Maintenance Function)，包括但不限于数据自优化、数据过期、快照清理、元数据同步等。不同于引擎端实现，Amoro 希望通过全托管的湖仓维护功能打造数据在不同引擎之间的高可用性和开箱即用。

向下支持对接不同的数据湖格式，包括 Apache Iceberg 和 Apache Paimon，以及一种对流批一体场景更加优化的 Mixed 格式。

提供开箱即用的管理工具，包括但不限于 DSL 指令、Metrics、Dashboard。

Amoro 自 2022 年 8 月对外开源以来，Amoro 一共有19个上线用户，62位贡献者。