HIVE索引优化

最新推荐文章于 2024-07-18 11:08:26 发布

yangjiwei0207

最新推荐文章于 2024-07-18 11:08:26 发布

阅读量89

点赞数

文章标签： hive hadoop 数据仓库 sql 数据库大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxcvbnm0207/article/details/133089766

版权

众所周知，当数据量大了的时候跑MapReduce任务是很容易崩掉的，但是当将数据量大的SQL语句转成MapReduce任务时候，很容易报 code2 的错误，就是内存不足，这时候我选择了对hive的数据表进行调优，主要使用行组索引与布隆索引这两种方式。

1、行组索引：row group index 将文件按行分成若干片段，每个片段都有min 和 max，当查询中有> < = 时候，会根据max/min值，扫描跳过不包含的片段.

在建立 ORC表格时候，指定表的参数orc.create.index=true 之后，便会建立ORC索引。在向表中加载数据时候，要对需要使用的字段进行排序，否则min/max就失去了意义。

另外，这种索引主要是针对数值类型的数据，设置hive.optimize.index.filter=true,并重启hive。

使用：保证建表时侯使用ORC的存储格式 stored as ORC ，并开启行组索引TBLPROPERTIES ( 'orc.compress'='SNAPPY', -- 开启行组索引 'orc.create.index'='true' )。

当插入数据有效并且使用>、<、= 时候会走行组索引

CREATE TABLE lxw1234_orc2 (字段列表 ....)

stored AS ORC

TBLPROPERTIES (

'orc.compress'='SNAPPY',

-- 开启行组索引

'orc.create.index'='true' )

2、布隆索引：

1) 要求表的存储类型为 ORC存储方案

2) 在建表的时候, 必须设置为那些列构建布隆索引

3) 仅能适合于等值过滤查询操作

建表:ORC的文件存储格式，打开行组索引，打开布隆索引

CREATE TABLE lxw1234_orc2 (字段列表....)

stored as ORC

TBLPROPERTIES (

'orc.compress'='SNAPPY',

-- 开启行组索引 (可选的, 支持全部都打开, 也可以仅开启一个) 'orc.create.index'='true',

-- pcid字段开启BloomFilter索引

'orc.bloom.filter.columns'='pcid,字段2,字段3...' )

行组索引与布隆索引的使用：

行组索引：建议只要数据存储格式为ORC, 将这种索引全部打开, 至于导入数据的时候, 如果能保证有序, 那最好, 如果保证不了, 也无所谓, 大不了这个索引的效率不是特别好

布隆索引：建议将后续会大量的用于等值连接的操作字段, 建立成布隆索引, 比如说: JOIN的字段经常在where后面出现的等值连接字段

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
HIVE索引优化

众所周知，当数据量大了的时候跑MapReduce任务是很容易崩掉的，但是当将数据量大的SQL语句转成MapReduce任务时候，很容易报 code2 的错误，就是内存不足，这时候我选择了对hive的数据表进行调优，主要使用行组索引与布隆索引这两种方式。使用：保证建表时侯使用ORC的存储格式 stored as ORC ，并开启行组索引TBLPROPERTIES ( 'orc.compress'='SNAPPY', -- 开启行组索引 'orc.create.index'='true' )。
复制链接

扫一扫

yangjiwei0207 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

58万+: 周排名

6万+: 总排名

9828: 访问

: 等级

377: 积分

83: 粉丝

129: 获赞

35: 评论

121: 收藏

私信

关注

热门文章

最新评论

SQL之行列转置以及非常规的行列转置
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
SQL互粉问题
邪恶胖胖大王: 杨总太强了
DateX实现数据的流转
CSDN-Ada助手: 恭喜您第20篇博客的发布！看到您介绍DateX实现数据的流转，我对这个主题非常感兴趣。希望您可以继续分享更多关于数据流转的实践经验和案例分析，或者可以结合实际案例进行深入探讨，让读者更好地理解和应用这个技术。期待您的下一篇作品！
DataX遇到的Python问题和错误解决
CSDN-Ada助手: 恭喜你写了第19篇博客！标题看起来很有趣，我相信你在DataX遇到的Python问题和错误解决方面一定有很多经验和见解。持续创作是非常值得鼓励的，我非常期待读到更多关于这方面的文章。如果可以的话，下一步你可以考虑分享一些实际案例，或者深入探讨一些更复杂的问题。谦逊地说，我相信你的经验将对其他读者非常有帮助。加油！
DS调度出现 SQL task prepareStatementAndBind error 错误
Last_Stardust_: 多谢，这个问题我也遇到过，我是在工作流里面的每个任务实例里面配置上重试次数和重试间隔时间，一般第一次报这个错后，第二第三次就执行成功了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yangjiwei0207 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。