2024年4月16日 - Apache软件基金会(ASF),这个由320多个活跃的开源项目和计划的志愿开发者、管理员和孵化器组成的组织,今天宣布Apache Paimon已从孵化器毕业,成为一个顶级项目(TLP)。
恭喜Paimon!
01
流式湖仓解决方案
Paimon 流式湖仓解决方案 Streaming Lakehouse
提到数据湖,我们会想到三大开源数据湖Iceberg、Hudi、Delta,但是它们都无法完美的支持Flink这种实时流式处理。
那么,有没有开源的流式数据湖解决方案呢?
Paimon就是一个从Flink孵化出来的流式数据湖项目,也是未来一段时间大数据的技术趋势所在。
Apache Paimon。
派蒙这个名字对于玩过原神的同学来说,应该会比较亲切。
什么是Paimon?
2021年末,Flink官方提出打造一个全新的存储 Flink Table Store,一个 Flink 完全内置的存储。
在发布了三个版本后,虽然 Flink Table Store 具备了一定的成熟度。
但作为 Flink 社区的一个子项目,在生态发展如Spark用户的使用方面存在比较明显的局限性。
为了让 Flink Table Store 能够有更大的发展,Flink PMC经过讨论决定将其捐赠Apache进行独立孵化。
2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,
正式进入 Apache 软件基金会的孵化器,改名为 Apache Paimon。
进入孵化器后,Paimon 得到了众多的关注,包括阿里云、字节跳动、Bilibili、汽车之家、蚂蚁等多家公司参与到 Apache Paimon 的贡献,也得到了广大用户的使用。
Paimon 基于数据湖 + LSM,有很强的 Upsert 更新能力。
Paimon 从 Flink 中孵化出来,支持 Flink SQL 所有特性,包括 Flink CDC,Spark 也是生态中必须的一环,所以 Paimon 从一开始就面向多计算引擎。
Paimon 原生面向实时数据湖场景进行设计,能够大幅提升数据湖全链路的数据新鲜度,快速迭代,快速发展。
未来的数据湖,也将迎来全新的Streaming Lakehouse,通用的 Lakehouse 架构时代。
具体的介绍可以参考下面的视频。
02
顺利毕业
在经过一段时间的孵化后,Paimon顺利毕业。我们可以在Apache官网上看到最新的公告。
2024年4月16日 - Apache软件基金会(ASF),这个由320多个活跃的开源项目和计划的志愿开发者、管理员和孵化器组成的组织,今天宣布Apache Paimon已从孵化器毕业,成为一个顶级项目(TLP)。Paimon是一种数据湖格式,可以通过Apache Flink和Apache Spark实现实时湖房架构,用于流和批处理操作。Paimon创新地将湖格式和日志结构合并树(LSM)相结合,将实时流更新引入数据湖。
该公告还同时介绍了Paimon的一些信息。
Paimon前身是由Flink社区首先开发的Flink Table Store。目前Paimon已被阿里巴巴、蚂蚁集团、字节跳动、中国联通、同程等全球多家公司在生产环境中使用。
Paimon支持批流结合的处理方式,同时提供了高性能的数据处理,追加表,实时分析,变更日志生成等功能。
GitHub: https://github.com/apache/paimon
网站: https://paimon.apache.org/
贡献: https://paimon.apache.org/docs/master/project/contributing/
Apache孵化器是希望成为Apache软件基金会努力成果的项目和代码库的主要入口。所有来自外部组织和现有外部项目的代码捐赠都通过孵化器进入ASF。
相信未来的Paimon会越来越好!
更多大数据、数据治理、人工智能相关知识与咨询,请关注大数据流动。