hive调优

zhongs11

于 2022-06-18 22:17:00 发布

阅读量173

点赞数

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhongs11/article/details/125352449

版权

需要调优的几个方面：

1.HIVE语句执行不了

2.HIVE查询语句，在集群中执行时，数据无法落地

HIVE执行时，一开始语句检查没有问题，生成了多个JOB，

并且一开JOB中的Map 及 Reduce 正常运行，之后便报异常包括 OOM 异常等

3.HIVE查询语句，执行时，Map或者Reduce端数据处理异常慢，导致整个执行效率低

调优方式：

1.分区、分桶

为什么分区或者分桶？

分区的好处，在扫描表时，会根据查询语句中的过滤条件，将固定分区中的数据加载至内存中

避免了表的全表扫描。

分桶好处？在获取数据时，根据查询的数据，进行做hash操作，将需要获取的数据指定到具体的桶中

，这样只获取固定部分桶数据，减小了数据的加载量

2.使用外部表

外部表和普通表的区别？删除数据时，外部表不会将HDFS中对应表路径中的数据删除

3.选择适当的文件压缩格式

1.对于刚采集过的源数据，需要用TextFile格式进行保存，需要保证源数据的格式及内容和原先一致

2.对于处理过的数据，一般对数据进行压缩保存(需要考虑实际情况)

4.命名要规范

创建表时，需要遵守:

如果数据存储在dwd中那么建表时需要将 dwd 放至表的开端

同时后面的业务名称需要和库名用 _ 进行分隔

5.数据分层，表分离，但是也不要分的太散

数据分层：

将不同类型的数据，应当存储在不同库中，

比如维度表应当存储在维度库、原始数据应当存储在ODS库中专门做管理

表分离：

在实际业务过程中，有一些表的维度比较大，单个表的存储压力大

同时数据读取时，拉去的数据内容比较多，但是所需要的字段较少，浪费计算资源

可以将表中相同类型的信息切分至多个表中，根据实际业务需要进行读取数据

如果分的太散，那么也会造成数据冗余，并且加载表过多，计算慢

6.分区裁剪 where过滤，先过滤，后join

1.针对分区表数据，可以通过where条件进行过滤数据，之后再进行其他操作

2.适当的使用一些子查询，将子查询中的数据进行初步过滤，然后再与其他表数据进行关联

7.mapjoin（1.2以后自动默认启动mapjoin）

select /*+mapjoin(b)*/ a.xx,b.xxx from a left outer join b on a.id=b.id

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

zhongs11 CSDN认证博客专家 CSDN认证企业博客

码龄4年

46: 原创

39万+: 周排名

110万+: 总排名

10万+: 访问

: 等级

560: 积分

41: 粉丝

77: 获赞

21: 评论

261: 收藏

私信

关注

热门文章

最新评论

正则表达式和枚举
m0_64884869: 很清晰，有用，感谢博主
JAVA实现九九乘法表
zhongs11: 实现九九乘法表是很简单的循环应用，应该是大家的作业所以访问量这么高，希望大家能够找到自己的方向，而不是只是看一下源代码交差。
JAVA实现九九乘法表
cougitmui: 好懂了非常谢谢哟
JAVA实现九九乘法表
zhongs11: 很简单你在main函数外定义一个printTable方法实现99乘法表，内容和这个一样，然后在main函数里面调用
JAVA实现九九乘法表
cougitmui: 是这样呢！请问该怎么实现呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。