大数据高频面试题之Hive怎么解决数据倾斜

最新推荐文章于 2021-08-30 10:35:32 发布

大数据面经

最新推荐文章于 2021-08-30 10:35:32 发布

阅读量205

点赞数

分类专栏： HIVE 大数据面试题文章标签：大数据 hive 大数据面试大数据组件面试题

本文链接：https://blog.csdn.net/weixin_44361667/article/details/115666105

版权

大数据同时被 3 个专栏收录

42 篇文章 3 订阅

订阅专栏

面试题

34 篇文章 1 订阅

订阅专栏

HIVE

20 篇文章 1 订阅

订阅专栏

场景： MR中,shuffle阶段的一个key值对应了很多值,那么就会将这么多值分到一个分区中hive中,两个表做join maptask中一个任务处理的时间明显大于其他task的时间就是出现了数据倾斜的问题

开启数据倾斜时负载均衡
set hive.groupby.skewindata=true;
思想：就是先随机分发并处理，再按照 key group by 来分发处理。
操作：当选项设定为 true，生成的查询计划会有两个 MRJob。
第一个 MRJob 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 GroupBy Key 有可能被分发到不同的Reduce 中，从而达到负载均衡的目的；

第二个 MRJob 再根据预处理的数据结果按照 GroupBy Key 分布到 Reduce 中（这个过程可以保证相同的原始 GroupBy Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

总结：它使计算变成了两个 mapreduce，先在第一个中在 shuffle 过程 partition 时随机给 key 打标记，使每个 key 随机均匀分布到各个reduce 上计算，但是这样只能完成部分计算，因为相同 key 没有分配到相同 reduce 上。所以需要第二次的 mapreduce,这次就回归正常 shuffle,但是数据分布不均匀的问题在第一次 mapreduce 已经有了很大的改善，因此基本解决数据倾斜。因为大量计算已经在第一次mr 中随机分布到各个节点完成。

大数据面经

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据高频面试题之Hive怎么解决数据倾斜

场景： MR中,shuffle阶段的一个key值对应了很多值,那么就会将这么多值分到一个分区中hive中,两个表做join maptask中一个任务处理的时间明显大于其他task的时间就是出现了数据倾斜的问题开启数据倾斜时负载均衡set hive.groupby.skewindata=true;思想：就是先随机分发并处理，再按照 key group by 来分发处理。操作：当选项设定为 true，生成的查询计划会有两个 MRJob。第一个 MRJob 中，Map 的输出结果集合会随机分布到 Re
复制链接

扫一扫