【数据湖Hudi的概念】Write Operation类型和Schema Evolution

最新推荐文章于 2024-05-19 10:15:00 发布

Bulut0907

最新推荐文章于 2024-05-19 10:15:00 发布

阅读量1k

点赞数

分类专栏： # Hudi 文章标签： hudi 数据湖 write operation schema更改湖仓一体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yy8623977/article/details/124166637

版权

Hudi 专栏收录该内容

14 篇文章 14 订阅

订阅专栏

目录

1. Write Operation类型
2. Schema Evolution

1. Write Operation类型

类型如下：

upsert(默认)：先查找索引，然后再进行insert或update
insert：不查找索引，直接insert
bulk_insert：对于表初始化时，进行几百TB数据的insert。数据insert时会进行排序
delete
1. Soft Deletes：删除一条数据的时候，保留数据，但将其它字段设置为null
2. Hard Deletes：进行physically remove，由3种实现方式：
  1. 通过DataSource：设置OPERATION_OPT_KEY为DELETE_OPERATION_OPT_VAL，对submit的dataset进行删除
  2. 通过DataSource：设置PAYLOAD_CLASS_OPT_KEY为"org.apache.hudi.EmptyHoodieRecordPayload"，对submit的dataset进行删除
  3. 通过DataSource或DeltaStreamer：向dataset添加一列_hoodie_is_deleted，值为true表示delete，值为false或null表示upsert

write的流程：

Index Lookup：看record属于哪个file group
Partitioning：决定update / insert哪些file group，或创建哪些file group
Write I/O：创建新的base file，或append到log file
Update Index
Commit：进行原子性的commit，如果失败则rollback
Clean(if needed)
Compaction：如果是MOR类型的表, 同步或异步的进行compaction
Archive：将timeline中老的移动到archive文件夹

2. Schema Evolution

下表是schema changes对不同Hudi表的兼容情况

Schema Change	COW	MOR	Remarks
添加一个nullable列到schema的最后	Yes	Yes
添加一个nullable列到struct类型字段的最后	Yes	Yes
Add a new complex type field with default (map and array)	Yes	Yes
添加一个nullable的Hudi meta column，比如：_hoodie_meta_col	Yes	Yes
将root level字段的类型从int升到long	Yes	Yes	还支持其它类型提升：int => long、float、double，long => float、double，float => double，string => bytes，bytes => string
将嵌套类型字段的子字段从int升到long	Yes	Yes
Promote datatype from int to long for a complex type (value of map or array)	Yes	Yes

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。