数据倾斜及处理方案

最新推荐文章于 2023-06-01 10:31:54 发布

zhangxiaomei1952

最新推荐文章于 2023-06-01 10:31:54 发布

阅读量898

点赞数

分类专栏： hive 文章标签： hive

本文链接：https://blog.csdn.net/zhangxiaomei1952/article/details/69788883

版权

hive 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.什么是数据倾斜
大家可能会发现这样一种现象：在执行hive查询的时候，map早已经100%了，而reduce也早早到了90% +，但是reduce可能会一连出现多个99%，而且迟迟停在99%，不再向下走，这是数据倾斜最常见的表现。
2.什么会导致数据倾斜
以MapReduce实现过程为例，如果大多数item对应用户量都是几十万的级别，少量item对应user量很大，例如百万以上，则聚集到这些item上（即对应的reduce上）的数据量就会很大，此时就出现数据倾斜的问题，整体速度方面就会很慢。详见：http://blog.csdn.net/lilyth_lilyth/article/details/9269693（侵删）使map的输出数据更均匀的分布到reduce中去，是我们的最终目标。由于Hash算法的局限性，按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑。
出现数据倾斜一般是hive语句中有join操作，而且经常是大表和小表之间的关联。

3.解决数据倾斜思路：使用大表做驱动表，以防止内存溢出；Join最右边的表是驱动表；Mapjoin无视join顺序，用大表做驱动表；具体方法就是将大表放在后面，将小表放在join前面，但是有一个语句可以直接帮助我们做到这一点：
即在hive执行语句前加上：
set hive.auto.convert.join=true; —-自动判断大表和小表
其他解决方案可参照：
http://www.mamicode.com/info-detail-500353.html（侵删）

zhangxiaomei1952

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜及处理方案

1.什么是数据倾斜大家可能会发现这样一种现象：在执行hive查询的时候，map早已经100%了，而reduce也早早到了90% +，但是可能会一连出现多个99%，而且迟迟停在99%，不再向下走，这是数据倾斜最常见的表现。 2.什么会导致数据倾斜以MapReduce实现过程为例，如果大多数item对应用户量都是几十万的级别，少量item对应user量很大，例如百万以上，则聚集到这些item上
复制链接

扫一扫