湖仓方案DeltaLake、Hudi、Iceberg功能对比

修破立生

已于 2022-02-12 22:40:04 修改

阅读量2.6k

点赞数

分类专栏：湖仓 Hudi 文章标签：大数据数据仓库 big data

于 2022-01-23 11:43:08 首次发布

本文链接：https://blog.csdn.net/weixin_47298890/article/details/122647808

版权

湖仓同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

Hudi

14 篇文章 1 订阅

订阅专栏

简介

DeltaLake

DeltaLake是一个致力于在数据湖之上构建湖仓一体架构的开源项目。
DeltaLake支持ACID事务，可扩展的元数据存储，在现有的数据湖（S3、ADLS、GCS、HDFS）之上实现流批数据处理的统一。
官网地址：https://delta.io
当前版本：1.1.0

Hudi

Hudi是新一代的流式数据湖平台，在开源的文件系统之上引入了数据库的表、事务、高效的更新/删除、索引、流式写服务、数据合并、并发控制等功能及特性。
官网地址：https://hudi.apache.org/
当前版本：0.10.0

Iceberg

Iceberg是一个用于处理海量分析数据集的开放表格式。支持 Spark, Trino, PrestoDB, Flink and Hive等计算引擎，操作Iceberg如SQL table一样。
官网地址：https://iceberg.apache.org （吐槽：官网打开真的很慢）
当前版本：0.12.1

功能对比

对比项	DeltaLake	Apache Hudi	Apache Iceberg
update/delete	Yes	Yes	Yes
文件合并	Manually	Automatic	Manually
历史数据清理	Automatic	Automatic	Manually
文件格式	parquet	parquet and avro	Parquet,avro,orc
计算引擎	Hive/Spark/Presto	Hive/Spark/Presto/Flink	Hive/Spark/Presto/Flink
存储引擎	HDFS/S3/Azure	HDFS/S3/OBS/ALLUXIO/Azure	HDFS/S3
SQL DML	Yes	Yes	Yes
ACID transaction	Yes	Yes	Yes
TimeLine	Yes	Yes	Yes
索引	No	Yes	No
可扩展的元数据存储	Yes	Yes	Yes
Schema约束和演化	Yes	Yes	Yes

相同点

都支持update/delete
都支持ACID, 原子性、一致性、隔离性、持久性，避免垃圾数据的产生，保证了数据质量
都能支持主流的高可用存储HDFS、S3
都提供了对Spark的支持，数据的写入都需要一个Spark Job去完成。都是以java package（–jars）方式引入到Spark。
读写都是以java library的方式引入到相关的执行引擎（Spark/Hive/Presto/Flink），不需要启动额外的服务
都可以自行管理元数据，元数据保存在HDFS/S3
都支持Spark/Hive/Presto
都支持TimeLine

不同点

文件合并，Hudi支持自动合并，DeltaLake和Iceberg支持手动合并(额外定时调度)
数据清理，Hudi和DeltaLake和自动清理过期数据文件； Iceberg支持手动清理(额外定时调度)
文件格式：
DeltaLake支持Parquet的文件格式。
Hudi数据主要保存在Parquet文件，增量数据以行的方式写入Avro文件，合并操作会把指定时间范围内的Avro文件数据写入Parquet文件。
Iceberg 支持Parquet、Avro、ORC。
Hudi支持索引
Hudi 和 IceBerg支持Flink批流读写