北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!
Apache 官方博客发布了 Apache Paimon 毕业的消息:
(Apache 官网部分截图)
Apache Paimon 成长历史
Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。
2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。 之后在导师 Yu Li、Becket Qin、Stephan Ewen、 Robert Metzger 的指导下,由孵化器管理委员会成员进行辅导和孵化。
2024 年 3 月 20 日,Apache 董事会通过 Apache Paimon 毕业决议,结束了为期一年的孵化,正式确定 Apache Paimon 成为 Apache 顶级项目。
孵化的一年间,Paimon 社区的贡献者和关注者都获得了非常大的提升。
Paimon 在这一年里发布了四个大版本,并在大量企业生产实践中使用,包括 阿里巴巴、字节跳动、同程旅行、蚂蚁集团、中国联通、网易、中原银行、汽车之家、平安证券、喜马拉雅等企业,广泛应用于实时数据湖的构建,帮助数据库更好的 CDC 入湖,帮助构建近实时流式湖仓,帮助企业提升数据时效性价值,获取业务实时化效果。
核心能力
Apache Paimon 是一个湖格式,结合 Flink 及 Spark 构建流批处理的实时湖仓一体架构。Paimon 创新的结合湖格式与 LSM 技术,给数据湖带来了实时流更新以及完整的流处理能力。
在过去的孵化期间,Paimon 通过技术创新不断克服挑战,展现出了以下关键特性:
● 实时入湖能力增强:Paimon 提供了一系列的入湖工具,自动同步 Schema 变更,允许快速将包括 MySQL 在内的多种数据库系统的实时变化同步至数据湖,即便在千万级数据规模下也能保持高效率与低延迟。
● 湖上批流一体处理:Paimon 结合 Flink 提供完整的流处理能力,结合 Spark 提供完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的批流一体处理,提高易用性并降低成本。
● 全面生态集成拓展:Paimon 已经与众多开源工具和技术栈紧密集成,支持大数据典型计算引擎,包括 Flink、Spark、Hive、Trino、Presto、StarRocks、Doris 等等,统一存储,计算无边界。
● 湖仓存储格式革新:Paimon 持续创新,引入新功能,在流批技术处理的基础上,提出 Deletion Vectors 和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP 等场景的全方位支持。
Apache Paimon 的毕业意味着该项目已经在社区治理、代码质量、文档完善度以及用户采用度等方面达到了 Apache 社区严格的标准要求,得到了广泛认可。这将进一步加速项目的普及与应用,推动实时数据湖技术在全球范围内的广泛应用。
毕业寄语
衷心祝贺 Paimon 社区毕业成为 Apache 顶级项目!作为项目的孵化 Champion 和导师,很高兴看到 Paimon 社区通过践行 Apache Way 发展的越来越繁荣。在孵化期间,Paimon 不仅发布了多个功能丰富且具备创新性的版本,还营造了一种包容的氛围,吸引了很多新的贡献者加入社区。祝愿 Paimon 百尺竿头更进一步,成为世界级的明星项目,推动实时数据湖技术的持续发展。
—— 李钰 ASF Member and Incubator Mentor,阿里云 EMR 负责人
祝贺 Paimon 毕业并成为 ASF 的顶级项目。事实上,Paimon 已经开始帮助阿里巴巴对 Lakehouse 架构进行实时更新和分析,此外,我们还将在未来利用 Paimon 为 AI 业务服务。
—— 王峰 阿里云开源大数据负责人
热烈祝贺 Apache Paimon 顺利毕业,这是一个重要的里程碑,是对 Paimon 社区开发者的肯定。我有幸参与到 Paimon 从 Flink Table Store 到独立孵化,到顺利毕业的整个过程,切身体会到社区开发者的务实和极致。祝愿 Apache Paimon 在未来的发展中解决更多的数据湖业务场景,取得更大的成功。
—— 张光辉 字节跳动流式计算负责人
祝贺 Paimon 从孵化器中毕业成为 Apache 开源顶级项目!Apache Paimon 是一款高性能、低延迟的实时数据湖,在蚂蚁公司风控、五福等场景应用中,显著降低了数据计算、存储成本,明显提升了数据开发效率。祝愿 Apache Paimon 社区发展越来越好,彻底改变当前流批分离的数据开发模式,成为数据湖领域的领导者。
—— 李志刚 蚂蚁集团实时计算引擎负责人
恭喜 Paimon 顺利毕业,我们从早期就开始应用 paimon 到我们的湖仓建设之中,得益于 Paimon 简单、流批一体等特性在我们的数据湖仓建设中发挥了重要作用,极大的简化了湖仓业务的开发流程。我们深信 Paimon 毕业后会为更多的企业的数据湖仓带来便利,为湖仓发展作出更多的创新。
—— 吴祥平 同程旅行大数据计算负责人
我很高兴 Paimon 的社区在过去的一年里变得越来越强大,大量的开发者和用户加入了这个社区,经过社区的努力,Paimon 已经超出了我的想象,在许多企业中拥有非常丰富的使用场景。希望 Paimon 能在未来成为统一的湖存储底座,满足离线批计算、实时流计算与 OLAP 计算。
—— 李劲松 Apache Paimon PMC Chair
更多内容
阿里云提供的基于Flink和Paimon的云上流式湖仓解决方案,旨在搭建高效、低延时的流式数据湖仓。此方案利用Flink的实时计算能力,结合Paimon的高效更新能力,实现数据在数仓分层间的实时流动。其优势包括将数据变更的传递延时从小时级甚至天级降低至分钟级,无需覆写分区即可直接接受变更数据,从而极大地降低了数据更新与订正的成本。此外,ETL链路的逻辑基于Flink SQL实现,统一了模型并简化了架构,提高了数据处理效率。点击下方链接了解更多详情。