优化后的shuffle操作的原理剖析（一）

最新推荐文章于 2021-11-17 20:20:56 发布

导演我死哪儿

最新推荐文章于 2021-11-17 20:20:56 发布

阅读量188

点赞数

分类专栏：大数据相关

本文链接：https://blog.csdn.net/yrsg666/article/details/100096907

版权

大数据相关专栏收录该内容

91 篇文章 1 订阅

订阅专栏

如上图，在spark新版本中，引入了consolidation机制，也就是说提出了shufflegroup的概念，一个shufflemaptask将数据写入resulttask数量的本地文件，这个不会变，但是，当下一个shufflemaptask运行的时候，可以直接将该数据写入之前的shufflemaptask的内存文件，同样的数据也会一点点刷新到同样的一个本地磁盘文件，相当于是对多个shufflemaptask的输出进行了合并，从而大大减少了本地磁盘的数量。机器上有两个cpu，也就说4个shufflemaptask，有2个shufflemaptask是可以并行执行的，如上图并行执行的shufflemaptask写入的文件一定是不同的。当一匹并行执行的shufflemaptask运行完之后，那么新的一批shufflemaptask启动起来并行执行的时候，优化机制就开始发挥作用了。（consolidation机制）。这个东西，可以称作一组shufflegroup，那么每个文件中，都存储了多个shufflemaptask的数据，每个shufflemaptask的数据，叫做一个segment。此外，会通过一些索引，来标记每个shufflemaptask的输出在shuffleblockfile中的索引，以及偏移量等，来进行不同的shufflemaptask的数据的分区。开启了consolidation机制之后的shufflewrite操作，它的优化点，就在于每个节点上的磁盘文件变成了 cup cores 数量*resulttask数量，比如每个节点有2个cpu，有100个resulttask，那么每个节点上总共才200个磁盘文件，而如果按照普通的shuffle操作的话，就是100*100=10000个磁盘文件。优化之后的shuffle操作，主要通过在sparkconf中，设置一个参数即可。
这个是consolidation优化，这个已经是老版本的优化了，后续我会继续整理比较新的版本优化，请关注第二版~~

导演我死哪儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化后的shuffle操作的原理剖析（一）

如上图，在spark新版本中，引入了consolidation机制，也就是说提出了shufflegroup的概念，一个shufflemaptask将数据写入resulttask数量的本地文件，这个不会变，但是，当下一个shufflemaptask运行的时候，可以直接将该数据写入之前的shufflemaptask的内存文件，同样的数据也会一点点刷新到同样的一个本地磁盘文件，相当于是对多个shuff...
复制链接

扫一扫

专栏目录