06_spark数据倾斜

最新推荐文章于 2024-03-03 16:31:00 发布

坐在6号工位打螺丝

最新推荐文章于 2024-03-03 16:31:00 发布

阅读量56

点赞数

分类专栏： Scala 文章标签： spark big data hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44429965/article/details/120158704

版权

Scala 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

spark数据倾斜

什么是数据倾斜
解决方法（思路和hive其实比较像）

什么是数据倾斜

数据倾斜是大数据领域一个很常见的问题，通常表现为其余task很早就完成了，但是极个别task时效很久或者压根就完不成。原因通常为数据分布极为不均，某一个key的数据太多而加载到一个task中工作(MapReduce表现也差不多)
一般会发生在shuffle的算子过程

解决方法（思路和hive其实比较像）

一、使用Hive ETL预处理数据

原理：hive中的数据有倾斜，所以再hive中就把倾斜解决掉，不在spark中处理。
优点：实现起来简单便捷，效果还非常好，完全规避掉了数据倾斜，Spark作业的性能会大幅度提升。
缺点：治标不治本，Hive ETL中还是会发生数据倾斜。

二、过滤少数导致倾斜的key

原理：将少数几个数据量过多且不影响结果的key的数据过滤掉filter算子。
优点：实现简单，而且效果也很好，可以完全规避掉数据倾斜。
缺点：适用场景不多，大多数情况下，导致倾斜的key很多的，并不是只有少数几个。

三、提高shuffle操作的并行度

原理：增加shuffle read task的数量，可以让原本分配给一个task的多个key分配给多个task，从而让每个task处理比原来更少的数据（算子可以设定参数）
优点：实现起来比较简单，可以有效缓解和减轻数据倾斜的影响
缺点：只是缓解了数据倾斜而已，没有彻底根除问题，其效果有限。

四、两阶段聚合（局部聚合+全局聚合）

原理：将原本相同的key通过附加随机前缀或者后缀的方式，变成多个不同的key，局部聚合一次，再将结果全局聚合一次。和hive的添加随机数原理一样
优点：对聚合类的shuffle效果明显，至少是大幅度解决
缺点：只针对聚合类的shuffle有效，join类的还需要其他的方法

五、将reduce join转为map join

原理：如果一个RDD是比较小的，则可以采用广播小RDD全量数据+map算子来实现与join同样的效果，也就是map join，此时就不会发生shuffle操作，也就不会发生数据倾斜。
优点：对join的优化效果明显，因为没有shuffle所以就不会倾斜。
缺点：只适用于一个大的RDD和小RDD，要是大表和大表的时候就不适用。

六、采样倾斜key并分拆join操作

原理：将少数几个数据量过多且不影响结果的key的分拆成独立的RDD(加后缀或者前缀)，这样就不会再一个RDD里面。
优点：如果只是某几个key导致了倾斜，该方式可以用最有效的方式打散key进行join。
缺点：要是导致倾斜的key特别多的话也不适合。

坐在6号工位打螺丝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
06_spark数据倾斜

spark数据倾斜什么是数据倾斜解决方法（思路和hive其实比较像）一、使用Hive ETL预处理数据二、过滤少数导致倾斜的key三、提高shuffle操作的并行度四、两阶段聚合（局部聚合+全局聚合）五、将reduce join转为map join六、采样倾斜key并分拆join操作什么是数据倾斜数据倾斜是大数据领域一个很常见的问题，通常表现为其余task很早就完成了，但是极个别task时效很久或者压根就完不成。原因通常为数据分布极为不均，某一个key的数据太多而加载到一个task中工作(MapRe
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。