数据倾斜

最新推荐文章于 2023-01-19 13:23:11 发布

向阳争渡

最新推荐文章于 2023-01-19 13:23:11 发布

阅读量148

点赞数

分类专栏：大数据/Spark 文章标签：数据倾斜 MapReduce Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyang_yangqi/article/details/89704088

版权

大数据/Spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

数据倾斜的原因：

数据倾斜与业务逻辑和数据量有关

在MapReduce程序中，数据倾斜主要发生在某个key的数据量较大，此key分散到某个reduce造成reduce阶段的缓慢甚至卡顿。

在Spark程序中，同一个Stage的不同Partition可以并行运行，而具有依赖关系的Stage是串联的。Stage中包含多个Task是可以并行运行的，但是如果某一个task损耗的时间过长，则当前Stage的总运行时间至少是最慢的哪个task的运行时间，下一个关联的Stage也不能运行，进而造成数据倾斜。

解决方案

MapReduce的解决方案：

调优参数：在map中做部分聚集操作，效率更高但需要更多内存
在map阶段将造成倾斜的key先分成多组，比如加后缀的方式
能先进行group操作的时候先进行group，把key先进行一次reduce
join操作，使用map join在map端先进行join，免得reduce时卡住
增加reduce的JVM内存、reduce个数
distinct

Spark的解决方案

聚合源数据：Spark的数据源主要是hive、kafka等。可以处理好kafka相关topic的各Partition之间数据是否平衡，这直接决定Spark处理该数据时是否会产生数据倾斜。
过滤导致倾斜的key
通过shuffle操作提高reduce并行度
使用随机key实现双重聚合
将reduce join转换成map join

传送门：

MapReduce优化参考

Spark优化参考

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。