Hudi 的写操作类型

最新推荐文章于 2024-05-16 08:12:56 发布

修破立生

最新推荐文章于 2024-05-16 08:12:56 发布

阅读量1.8k

点赞数

分类专栏：湖仓 Hudi 文章标签：大数据 big data 实时大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47298890/article/details/123218633

版权

湖仓同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

14 篇文章 1 订阅

订阅专栏

简介

本文旨在介绍 Hudi 的各种写操作，以便在使用中作出更好的选择。

写操作的类型

1. UPSERT

这是默认的写操作类型，通过查找索引，输入的数据会被打上 insert 或者 update 的标签。推荐在数据库变更捕获的场景使用，通常这类场景会包含更新的记录。使用 UPSERT 操作类型写入的目标的表不会存在重复的数据。

2. INSERT

这种操作与 UPSERT 操作非常类似，只是跳过了查找索引这一步，使得它在性能上要比 UPSERT 要快很多。如果只是需要 Hudi 的事务写/增量拉取数据/存储管理的能力，并且可以容忍重复数据，那么可以选择 INSERT 操作。

3. BULK_INSERT

UPSERT 和 INSERT 操作都把输入的数据先在内存中缓存起来以提高性能，但是对于首次初始化导入数据到 Hudi 表会显得有点笨重。BULK_INSERT 提供了与 INSERT 类似的机制，不同的时候实现了对排序数据的写算法，可以快速的完成几百TB数据的初始化加载。

4. DELETE

Hudi 支持两种方式的 DELETE操作：

Soft Deletes: 保留record key, 把其他所有的字段的值都置为 NULL。
Hard Deletes: 从物理上删除这条记录。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hudi 的写操作类型

本文介绍了 Hudi 的写操作类型，包括 UPSERT, INSERT, BULK_INSERT, DELETE, 并介绍了相关的应用场景
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

修破立生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。