【HIVE数据倾斜常见解决办法】

xiannon

已于 2022-04-21 14:19:31 修改

阅读量9k

点赞数 8

文章标签： hadoop 大数据 hive 数据仓库经验分享

于 2022-04-04 22:22:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiannon/article/details/123957779

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、什么是HIVE数据倾斜？
二、数据倾斜原因及解决办法
总结

#博学谷IT学习技术支持#

前言

HIVE数据倾斜是HIVE必备、必问知识点。了解什么是数据倾斜、倾斜的原因以及如何解决倾斜，非常有必要。以下是个人总结。

一、什么是HIVE数据倾斜？

HIVE处理的数据分布不均匀，导致某一个或几个节点处理的数据量巨大，就会造成数据倾斜。
具体表现是，整个任务进度长时间处于99%附近，在yarn的任务详情页面发现大部分reduce都运行完成，只有一个或者几个reduce任务在长时间执行，是由于该reduce任务处理的数据量远远大于其他任务。

二、数据倾斜原因及解决办法

在实际项目中，主要三种情况会遇到数据倾斜，分别是join操作、group by 操作和count distinct 操作。

1. Join 倾斜

a. 大表 Join 小表

倾斜原因：主要是热点key导致，在shuffle过程中，相同的key会基于hash分发到同一个reduce算子上，导致join时倾斜。
解决办法：开启map端join： set hive.auto.convert.join = true; 默认是打开的。
– 开启该设置后，join时会在map端将小表缓存到内存中（缓存为hash table），在map端执

最低0.47元/天解锁文章

关注

8
点赞
踩
55

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。