Hudi 的索引机制和类型

最新推荐文章于 2024-02-27 20:22:59 发布

修破立生

最新推荐文章于 2024-02-27 20:22:59 发布

阅读量2.2k

点赞数 1

分类专栏：湖仓 Hudi 文章标签：大数据 big data data warehouse

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47298890/article/details/123141861

版权

湖仓同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

14 篇文章 1 订阅

订阅专栏

Hudi 的索引

Hudi 通过索引机制把 hoodie key (record key + 分区路径) 映射一个 file id 来提供高效的 Upsert 操作。record key 和数据文件的 group/file id 形成的映射关系从数据的第一个版本开始就不会改变了。简单来说，一条数据的所有版本都可以通过同一个 file id 找到。

对于 Copy-On-Write 的表来说，索引可以避免关联整张表来决定哪些文件需要重写，以加快 upsert/delete 的操作。

对于 Merge-On-Read 的表来说，索引可以限定 base 文件需要合并的数据条数，并且只需要对有更新的记录对应的 base 文件进行合并。

相反，如果没有索引机制的话（例如 Apache Hive ACID），需要所有的base 件合并 update/delete的数据，会造成很大的性能损失和资源占用。

在这里插入图片描述 黄色代表更新文件，白色代表 base 文件，图片来源于官网

Hudi 索引的类型

Hudi 当前支持的索引类型：

Bloom 索引（默认）：对 record key 创建布隆过滤器
Simple 索引：对update/delete 操作和存储中提取出来的key，执行轻量级的 join
HBase 索引：通过外部的 HBase存储来管理索引

也可以通过扩展公开的 API 来实现个性化的索引。用户可以通过 hoodie.index.type 来配置索引的类型。

Global index 和 Non Global index

Global index(全局索引): Global index 要求保证 key 在表中所有分区的都是唯一的，保证一个给定的 record key 在表中只能找能唯一的一条数据。Global index 提供了强唯一性保证，但是随着表增大，update/delete 操作损失的性能越高，因此只适用于小表。

Non Global index(非全局索引)：非全局索引只能保证数据在分区的唯一性。但是通过对 Hudi 索引的学习，不难了解到 key 与 file id 存在映射关系，同一个 key 的数据（包括 updete/delete）必然会存在同一个分区里面。这种实现方式提供更好的索引查找性能，适用于大表。

Bloom 索引和 Simple 索引支持 Global 和 Non Global 选项。
HBase 索引只支持 Global。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
2
评论
Hudi 的索引机制和类型

本文介绍了 Hudi 的索引机制、索引类型（Bloom/Simple/HBase）、以及 Global索引和 Non-Global 索引
复制链接

扫一扫

专栏目录

修破立生 CSDN认证博客专家 CSDN认证企业博客

码龄4年

113: 原创

2万+: 周排名

179万+: 总排名

24万+: 访问

: 等级

1327: 积分

3955: 粉丝

71: 获赞

66: 评论

502: 收藏

私信

关注

热门文章

分类专栏

大模型 1篇
Apache Doris 17篇
Flink 30篇
小文件存储 11篇
Python 7篇
Hudi 14篇
湖仓 19篇
关系型数据库 6篇
ElasticSearch 4篇
Iceberg 3篇
Spring 4篇
工具 8篇
Kafka 6篇
Spark 6篇
TiDB 1篇

最新评论

社区版 IntelliJ IDEA 如何创建Spring boot项目
拥抱_未来: 无网环境下开发，如何做？
IDEA 启动本地 Flink Web UI
PeteLuo: 我的flink版本是1.18.1，pom的UI组件需要调整为 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web</artifactId> <version>${flink.version}</version> </dependency>
Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态
早退的程序员: org.apache.flink.table.api.ValidationException: SQL validation failed. Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's time attribute field
Apache Doris 系列：基础篇-Flink DataStream 读写Doris
erxiaoouba: 确定能跑通?
如何在 MacOS 安装轻量级虚拟机工具 Multipass
后来v: 我执行multipass shell报错：start failed: The following errors occurred: qemu-system-aarch64: -nic vmnet-shared,model=virtio-net-pci,mac=52:54:00:91:d4:32: cannot create vmnet interface: conflict, sharing service is in use 请问知道是什么原因吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

修破立生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。