数据湖之Hudi(4):Apache Hudi 快速发展

目录

0. 相关文章链接

1. Hudi 诞生

2. 发展历史

3. 各版本新特性

4. 新架构:湖仓一体


0. 相关文章链接

数据湖 文章汇总

1. Hudi 诞生

  • Apache Hudi由Uber开发并开源,该项目在2016年开始开发,并于2017年开源,2019年1月进入 Apache 孵化器,且2020年6月成为Apache顶级项目,目前最新版本:0.10.1版本。
  • Hudi 一开始支持Spark进行数据摄入(批量Batch和流式Streaming),从0.7.0版本开始,逐渐与Flink整合,主要在于Flink SQL 整合,还支持Flink SQL CDC。

2. 发展历史

  • 2015 年:发表了增量处理的核心思想/原则(O'reilly 文章)
  • 2016 年:由 Uber 创建并为所有数据库/关键业务提供支持
  • 2017 年:由 Uber 开源,并支撑 100PB 数据湖
  • 2018 年:吸引大量使用者,并因云计算普及
  • 2019 年:成为 ASF 孵化项目,并增加更多平台组件
  • 2020 年:毕业成为 Apache 顶级项目,社区、下载量、采用率增长超过 10 倍
  • 2021 年:支持 Uber 500PB 数据湖,SQL DML、Flink 集成、索引、元服务器、缓存。

3. 各版本新特性

Hudi 0.5.x 版本时
        Apache 顶级项目,支持Spark、Hive、Presto分析引擎
        主要以Spark为主,将数据批量和流式写入Hudi中

Hudi 0.6 版本开始
        逐渐添加新特性和功能

Hudi 0.7.0 版本开始
        由于Flink 计算引擎成熟稳定,尤其Flink 1.12版本发布
        社区开始支持Flink 计算引擎,提供工具类方式

Hudi 0.8.0 版本,支持Flink SQL Client 操作Hudi 表数据
        数据入湖
        数据查询
        使用SQL方式

Hudi 0.9.0 版本,重构与Flink集成,更好与Flink使用
        支持CDC方式,将数据流式入湖,使用Hudi进行管理
        流式查询Hudi表数据,仅仅编写SQL即可

Hudi 0.10.0 版本,支持更多数据源
        比如支持MySQL数据源
        支持Kafka 数据源

4. 新架构:湖仓一体

  • Hudi 对于Flink友好支持以后,可以使用Flink + Hudi构建实时湖仓一体架构,数据的时效性可以到分钟级,能很好的满足业务准实时数仓的需求。
  • 通过湖仓一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。


注:Hudi系列博文为通过对Hudi官网学习记录所写,其中有加入个人理解,如有不足,请各位读者谅解☺☺☺

注:其他相关文章链接由此进(包括Hudi在内的各数据湖相关博文) -> 数据湖 文章汇总


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

电光闪烁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值