Hudi常用参数-索引相关参数配置

幻影889

已于 2024-08-27 14:39:10 修改

阅读量303

点赞数 12

分类专栏： Hudi 文章标签： hadoop

于 2024-08-27 14:36:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61938673/article/details/141602428

版权

Hudi 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

index相关配置

hoodie.index.class
用户自定义索引的全路径名，索引类必须为HoodieIndex的子类，当指定该配置时，其会优先于hoodie.index.type配置。
hoodie.index.type
使用的索引类型，默认为布隆过滤器。可能的选项是[BLOOM | HBASE | GLOBAL_BLOOM | SIMPLE | GLOBAL_SIMPLE | BUCKET | RANGE] 。布隆过滤器消除了对外部系统的依赖，并存储在Parquet数据文件的页脚中。
注意：
BUCKET、RANGE索引仅支持INSERT、UPSERT、DELETE、COMPACT操作。
hoodie.index.bloom.num_entries
存储在布隆过滤器中的条目数。假设maxParquetFileSize为128MB，averageRecordSize为1024B，因此，一个文件中的记录总数约为130K。默认值（60000）大约是此近似值的一半。
注意：
将此值设置得太低，将产生很多误报，并且索引查找将必须扫描比其所需的更多的文件；如果将其设置得非常高，将线性增加每个数据文件的大小（每50000个条目大约4KB）。
hoodie.index.bloom.fpp
根据条目数允许的错误率。用于计算应为布隆过滤器分配多少位以及哈希函数的数量。通常将此值设置得很低（默认值：0.000000001），在磁盘空间上进行权衡以降低误报率。
hoodie.bloom.index.parallelism
索引查找的并行度，其中涉及Spark Shuffle。默认情况下(0)，根据输入的工作负载特征自动计算的。
hoodie.bloom.index.prune.by.ranges
默认为true时，从文件框定信息，可以加快索引查找的速度。如果键具有单调递增的前缀，例如时间戳，则特别有用。
hoodie.bloom.index.use.caching
默认为true时，将通过减少用于计算并行度或受影响分区的IO来缓存输入的RDD以加快索引查找。
hoodie.bloom.index.use.treebased.filter
默为true时，启用基于间隔树的文件过滤优化。与暴力模式相比，此模式可根据键范围加快文件过滤速度。
hoodie.bloom.index.bucketized.checking
默为true时，启用了桶式布隆过滤。这减少了在基于排序的布隆索引查找中看到的偏差。
hoodie.bloom.index.keys.per.bucket
仅在启用bloomIndexBucketizedChecking并且索引类型为bloom的情况下适用。
此配置控制“存储桶”的大小（默认10000000），该大小可跟踪对单个文件进行的记录键检查的次数，并且是分配给执行布隆过滤器查找的每个分区的工作单位。较高的值将分摊将布隆过滤器读取到内存的固定成本。
hoodie.bloom.index.update.partition.path
仅在索引类型为GLOBAL_BLOOM时适用。
默认为true时，当对一个已有记录执行包含分区路径的更新操作时，将会导致把新记录插入到新分区，而把原有记录从旧分区里删除。为false时，只对旧分区的原有记录进行更新。
hoodie.index.hbase.zkquorum
仅在索引类型为HBASE时适用，必填选项。要连接的HBase ZK Quorum URL。
hoodie.index.hbase.zkport
仅在索引类型为HBASE时适用，必填选项。要连接的HBase ZK Quorum端口。
hoodie.index.hbase.zknode.path
仅在索引类型为HBASE时适用，必填选项。这是根znode，它将包含HBase创建及使用的所有znode。
hoodie.index.hbase.table
仅在索引类型为HBASE时适用，必填选项。HBase表名称，用作索引。Hudi将row_key和[partition_path, fileID, commitTime]映射存储在表中。
hoodie.bucket.index.num.buckets
仅在索引类型为BUCKET时适用。Hudi表中每个分区划分桶的个数，每个分区内的数据通过Hash方式放入每个桶内。默认为256。
注意：
建表或第一次写入数据时设置后不能修改，否则更新数据会存在异常。
hoodie.bucket.index.hash.field
仅在索引类型为BUCKET时适用。进行分桶时计算Hash值的字段，必须为主键的子集，默认为Hudi表的主键。
hoodie.range.index.range
仅在索引类型为RANGE时适用。每个数据文件中存储的记录范围，只适用于主键为自增主键的场景。如设置默认值为100000，则主键为0-99999记录存储到一个数据文件，以此类推后面每100000条记录存储一个数据文件。
注意：
建表或第一次写入数据时设置后不能修改，否则更新数据会存在异常。
hoodie.check.index.parameter
是否对数据写入设置的索引参数进行校验。默认为true
注意：
不同索引间通常是不兼容的，设置为false，可能会导致数据异常。

关注

12
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hudi常用参数-索引相关参数配置

存储在布隆过滤器中的条目数。此配置控制“存储桶”的大小（默认10000000），该大小可跟踪对单个文件进行的记录键检查的次数，并且是分配给执行布隆过滤器查找的每个分区的工作单位。默认为true时，当对一个已有记录执行包含分区路径的更新操作时，将会导致把新记录插入到新分区，而把原有记录从旧分区里删除。用户自定义索引的全路径名，索引类必须为HoodieIndex的子类，当指定该配置时，其会优先于hoodie.index.type配置。进行分桶时计算Hash值的字段，必须为主键的子集，默认为Hudi表的主键。
复制链接

扫一扫

专栏目录

幻影889 CSDN认证博客专家 CSDN认证企业博客

码龄3年

6: 原创

129万+: 周排名

12万+: 总排名

5523: 访问

: 等级

130: 积分

44: 粉丝

70: 获赞

3: 评论

51: 收藏

私信

关注

热门文章

分类专栏

大数据 3篇
Hive 3篇
数据管理 1篇
Hudi 2篇

最新评论

设置hive表生命周期并自动进行数据清理
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题“设置hive表生命周期并自动进行数据清理”听起来非常有趣和实用。您的博客内容一直都非常有深度和实用性，我非常期待每一篇的发布。感谢您分享关于hive表生命周期设置和数据清理的经验，这对许多读者来说是非常有帮助的。在接下来的创作中，我建议您可以考虑分享一些关于hive表的其他高级功能或者更深入的技巧。例如，如何优化查询性能或者如何进行分区管理等等。通过分享这些内容，您可以进一步提高读者的技术水平，并且让他们对hive有更全面的了解。再次祝贺您的连续创作，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Hive 的日志路径查看
CSDN-Ada助手: 非常感谢您的分享和解析关于Hive的日志路径查看。您的博客对于那些想要修改Hive的日志路径的读者来说一定非常有用。希望您能继续创作，分享更多关于Hive和其他技术的知识。除了您在标题和摘要中提到的内容之外，还有一些扩展知识和技能可以与您的博文相关。例如，您可以进一步介绍如何配置Hive的日志级别，以及如何使用Hive的日志来进行故障排除和性能优化。此外，您还可以讨论如何将Hive的日志集成到集中式日志管理系统中，以便更好地监控和管理日志。再次感谢您的分享，并期待您在未来的博文中继续深入探讨Hive和其他相关技术的知识。请继续保持谦虚的态度，因为技术世界总是充满着新的发现和学习机会。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
hive的引擎mapreduce、tez和spark对比
CSDN-Ada助手: 恭喜您开始了博客创作，这是一个很棒的开始！您选择的主题也非常有深度，对比hive的引擎mapreduce、tez和spark，这将为读者提供很多有价值的信息。接下来，我建议您可以深入分析每种引擎的优缺点，并结合实际案例进行展示，这样读者可以更直观地了解它们之间的差异。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
hive的引擎mapreduce、tez和spark对比
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617772149。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。