【Spark】Spark Shuffle 原理

最新推荐文章于 2024-09-18 00:00:00 发布

和风与影

最新推荐文章于 2024-09-18 00:00:00 发布

阅读量1k

点赞数

分类专栏： Spark 大数据文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45545090/article/details/124651462

版权

今天学习 Spark Shuffle。昨天文章提到了 Spark 划分 stage 时，分为了 ShuffleMapStage 和 ResultStage。没看过的可以看昨天的文章。

【Spark】Spark 任务调度

在这里插入图片描述

在划分 stage 时：

前面的所有 stage 被称为 ShuffleMapStage。ShuffleMapStage 的结束伴随着 shuffle 文件的写磁盘。
最后一个 stage 称为 finalStage，它本质上是一个 ResultStage 对象，ResultStage 对应代码中的 action 算子，将一个函数应用在 RDD 的各个 partition 的数据集上，意味着一个 job 的运行结束。

下面讲 Spark 的两种 Shuffle。

1.HashShuffle

1.1 未优化的 HashShuffle

假设每个 Executor 只有 1 个 CPU core，无论这个 Executor上分配多少个 Task 线程，同一时间都只能执行一个 Task 线程。例如 3 个 Reducer，具体过程如下：

在 Task 中进行 Hash 计算，分区器计算分区（hash 值 % num_reduce，这里是 3)，得到 3 个不同的分区（

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。