数据湖之Hudi（4）：Apache Hudi 快速发展

电光闪烁

已于 2022-04-02 12:46:03 修改

阅读量2.4k

点赞数 2

分类专栏： # Hudi 文章标签： bigdata 大数据 hudi 数据湖

于 2022-02-20 20:49:01 首次发布

本文链接：https://blog.csdn.net/yang_shibiao/article/details/123035518

版权

Hudi 专栏收录该内容

44 篇文章 39 订阅

订阅专栏

0. 相关文章链接

数据湖文章汇总

1. Hudi 诞生

Apache Hudi由Uber开发并开源，该项目在2016年开始开发，并于2017年开源，2019年1月进入 Apache 孵化器，且2020年6月成为Apache顶级项目，目前最新版本：0.10.1版本。
Hudi 一开始支持Spark进行数据摄入（批量Batch和流式Streaming），从0.7.0版本开始，逐渐与Flink整合，主要在于Flink SQL 整合，还支持Flink SQL CDC。

2. 发展历史

2015 年：发表了增量处理的核心思想/原则（O'reilly 文章）
2016 年：由 Uber 创建并为所有数据库/关键业务提供支持
2017 年：由 Uber 开源，并支撑 100PB 数据湖
2018 年：吸引大量使用者，并因云计算普及
2019 年：成为 ASF 孵化项目，并增加更多平台组件
2020 年：毕业成为 Apache 顶级项目，社区、下载量、采用率增长超过 10 倍
2021 年：支持 Uber 500PB 数据湖，SQL DML、Flink 集成、索引、元服务器、缓存。

3. 各版本新特性

Hudi 0.5.x 版本时
        Apache 顶级项目，支持Spark、Hive、Presto分析引擎
        主要以Spark为主，将数据批量和流式写入Hudi中

Hudi 0.6 版本开始
        逐渐添加新特性和功能

Hudi 0.7.0 版本开始
        由于Flink 计算引擎成熟稳定，尤其Flink 1.12版本发布
        社区开始支持Flink 计算引擎，提供工具类方式

Hudi 0.8.0 版本，支持Flink SQL Client 操作Hudi 表数据
        数据入湖
        数据查询
        使用SQL方式

Hudi 0.9.0 版本，重构与Flink集成，更好与Flink使用
        支持CDC方式，将数据流式入湖，使用Hudi进行管理
        流式查询Hudi表数据，仅仅编写SQL即可

Hudi 0.10.0 版本，支持更多数据源
        比如支持MySQL数据源
        支持Kafka 数据源