什么是数据倾斜

最新推荐文章于 2024-05-04 20:13:16 发布

Alienware^

最新推荐文章于 2024-05-04 20:13:16 发布

阅读量335

点赞数 1

分类专栏：面试相关文章标签： spark big data hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45417821/article/details/120427104

版权

面试相关专栏收录该内容

13 篇文章 2 订阅

订阅专栏

数据倾斜是怎么发生的？
数据倾斜：shuffle过程数据分布不均匀。
shuffle：洗牌。
分步式计算，相同key的数据会到一个节点去处理。

举个例子：某宝想统计各个商家的一年销售额，有的商家卖了很多产品，但有的商家比较冷清，一年到头，卖不了多少东西，我想要对整年的所有商家的订单做个汇总，也就是，同一商家销售额数据累加到一起。你就会发现，你的hive，mr，spark程序，运行到某个阶段，突然不动了。这是因为，在shuffle过程中，有的商家数量比较少，但是有些商家是数量比较多，其他商家已经计算完了，他还在一直计算，一直占用资源，导致整个Job不能停止。这就是数据倾斜。

我们的数据，倾斜到一部分key里去了，数据跑到一个节点去计算了。在聚合的时候不太明显，但是数据和其他数据做join的时候更加明显。

总体来讲：数据倾斜会造成，一个人累死，多个人闲死的现象。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是数据倾斜

数据倾斜是怎么发生的？数据倾斜：shuffle过程数据分布不均匀。shuffle：洗牌。分步式计算，相同key的数据会到一个节点去处理。举个例子：某宝想统计各个商家的一年销售额，有的商家卖了很多产品，但有的商家比较冷清，一年到头，卖不了多少东西，我想要对整年的所有商家的订单做个汇总，也就是，同一商家销售额数据累加到一起。你就会发现，你的hive，mr，spark程序，运行到某个阶段，突然不动了。这是因为，在shuffle过程中，有的商家数量比较少，但是有些商家是数量比较多，其他商家已经计算完了，他.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。