数据湖之Hudi（16）：Apache Hudi 中数据写操作流程

电光闪烁

已于 2022-04-02 12:34:23 修改

阅读量1.9k

点赞数 1

分类专栏： # Hudi 文章标签： bigdata 大数据 hudi 数据湖

于 2022-03-03 01:00:00 首次发布

本文链接：https://blog.csdn.net/yang_shibiao/article/details/123124114

版权

44 篇文章 39 订阅

订阅专栏

0. 相关文章链接

在Hudi数据湖框架中支持三种方式写入数据：UPSERT（插入更新）、INSERT（插入）和BULK INSERT（写排序）

Copy On Write类型表，UPSERT 写入流程：

第一步、先对 records 按照 record key 去重；
第二步、首先对这批数据创建索引 (HoodieKey => HoodieRecordLocation)；通过索引区分哪些 records 是 update，哪些 records 是 insert（key 第一次写入）；
第三步、对于 update 消息，会直接找到对应 key 所在的最新 FileSlice 的 base 文件，并做 merge 后写新的 base file (新的 FileSlice)；
第四步、对于 insert 消息，会扫描当前 partition 的所有 SmallFile（小于一定大小的 base file），然后 merge 写新的 FileSlice；如果没有 SmallFile，直接写新的 FileGroup + FileSlice；

Merge On Read类型表，UPSERT 写入流程：

第一步、先对 records 按照 record key 去重（可选）
第二步、首先对这批数据创建索引 (HoodieKey => HoodieRecordLocation)；通过索引区分哪些 records 是 update，哪些 records 是 insert（key 第一次写入）
第三步、如果是 insert 消息，如果 log file 不可建索引（默认），会尝试 merge 分区内最小的 base file （不包含 log file 的 FileSlice），生成新的 FileSlice；如果没有 base file 就新写一个 FileGroup + FileSlice + base file；如果 log file 可建索引，尝试 append 小的 log file，如果没有就新写一个 FileGroup + FileSlice + base file
第四步、如果是 update 消息，写对应的 file group + file slice，直接 append 最新的 log file（如果碰巧是当前最小的小文件，会 merge base file，生成新的 file slice）log file 大小达到阈值会 roll over 一个新的

Copy On Write类型表，INSERT 写入流程：

第一步、先对 records 按照 record key 去重（可选）；
第二步、不会创建 Index；
第三步、如果有小的 base file 文件，merge base file，生成新的 FileSlice + base file，否则直接写新的 FileSlice + base file；

Merge On Read类型表，INSERT 写入流程：

第一步、先对 records 按照 record key 去重（可选）；
第二步、不会创建 Index；
第三步、如果 log file 可索引，并且有小的 FileSlice，尝试追加或写最新的 log file；如果 log file 不可索引，写一个新的 FileSlice + base file；

注：Hudi系列博文为通过对Hudi官网学习记录所写，其中有加入个人理解，如有不足，请各位读者谅解☺☺☺

注：其他相关文章链接由此进（包括Hudi在内的各数据湖相关博文） -> 数据湖文章汇总