spark调优(3)之高级调优

最新推荐文章于 2023-05-12 12:24:52 发布

LEEEEEO_

最新推荐文章于 2023-05-12 12:24:52 发布

阅读量91

点赞数

分类专栏： spark

原文链接：https://blog.csdn.net/lukabruce/article/details/81504220

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

数据倾斜调优

在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。
1.定位
shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等
2.数据倾斜的解决方案
解决方案一：使用Hive ETL预处理数据
解决方案二：过滤少数导致倾斜的key
解决方案三：提高shuffle操作的并行度
解决方案四：两阶段聚合（局部聚合+全局聚合）
解决方案五：将reduce join转为map join
解决方案六：采样倾斜key并分拆join操作

shuffle调优

进行shuffle相关参数调优
Spark性能优化指南——高级篇 (很详细): link.
有图解：数据倾斜是多么痛？Spark作业调优秘籍: link.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark调优(3)之高级调优

数据倾斜调优在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。1.定位shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等2.数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key解决方案三
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。