HIVE SQL数据倾斜情况以及解决办法

最新推荐文章于 2024-04-28 10:10:20 发布

阿武z

最新推荐文章于 2024-04-28 10:10:20 发布

阅读量4.2k

点赞数 4

分类专栏： Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xw514124202/article/details/94351714

版权

本文主要探讨了HIVE SQL中JOIN和GROUP BY操作出现数据倾斜的问题，包括空值、数据量不平衡、JOIN类型等。针对这些问题，提出了通过去重、map join、使用approx_count_distinct函数等解决策略，并提供了查看数据倾斜任务的方法。

摘要由CSDN通过智能技术生成

一、JOIN 数据倾斜

1、空值问题

select t1.id
from table_a t1
left join table_b t2
on t1.id = t2.id

如果主表的关联字段 t1.id 存在过多的NULL值，那么可能会造成数据倾斜
解决办法如下（将NULL赋随机值）

select t1.id
from table_a t1
left join table_b t2
on nvl(t1.id, rand()) = t2.id

2、如果其中一个表数据量不大，可以用 map join 方式解决

select
  /*+ MAPJOIN(t1)*/
  t1.id
from table_a t1
left join table_b t2
on t1.id = t2.id

PS. map join 不起作用时，可参考文章

最低0.47元/天解锁文章

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。