MapReduce之Shuffle

最新推荐文章于 2022-07-16 16:43:22 发布

spark man

最新推荐文章于 2022-07-16 16:43:22 发布

阅读量128

点赞数 1

分类专栏：大数据 # hadoop 文章标签： hadoop mapreduce shuffle 源码环形缓冲区

本文链接：https://blog.csdn.net/weixin_43810802/article/details/120759431

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

hadoop

7 篇文章 0 订阅

订阅专栏

承接上文MapReduce之Map阶段。

我们需要将map后的数据往外写。

shuffle

收集数据

我们写出的数据是("I", 1)。

在这里插入图片描述

我们需要往kvbuffer中写key和value。

写key的时候我们既要写I，又要写它的位置，不然怎么能找到它呢？

在这里插入图片描述

写的时候，如果剩余内存不够用了，就会发生溢写：

在这里插入图片描述
写I之前，我们已经有1这个位置了：

在这里插入图片描述

写了I之后就有了它的ASCII值了：

在这里插入图片描述

接着写1这个值，因为我们的1是Long，占8个字节，所以会占用kvbuffer的8个位置：

在这里插入图片描述

此时我们的bufindex增加到了10，它可是每写一次都会往上涨的。

接下来就要存元数据了：

在这里插入图片描述

注意到那几个常数：

在这里插入图片描述

这里就存了四个数，一个是分区，因为这里是I，按照自定义分区，分区为1。然后还有key开始的位置，value开始的位置，value的长度(此处为8)。

还记得我们刚开始的kvindex是21264396，经过计算现在的kvindex是21264392：

在这里插入图片描述

这就说明它往前跳了4格，因为接下来kvindex同样要+0，+1，+2，+3存分区，keyStart，valueStart，valueLength。

我们再看写出like的情况：

在这里插入图片描述

在这里插入图片描述
同样，kvmeta也要put一波，kvindex再次减4：

在这里插入图片描述

如果bufferRemaining用完了，就会发生溢写。（不管是kvbuffer中存数据，还是kvmeta中存元数据，bufferRemaining都会不断减少）。

另外一种溢写的条件是所有的数据都读完了。

我们紧跟最后一个词hadoop的脚步，看发生了什么:

在这里插入图片描述

排序和溢写

我们先记录下最后的kvbuffer和kvmeta相关参数：

在这里插入图片描述

一路跟下去：

在这里插入图片描述

我们看到map阶段结束了。现在进入output.close(mapperContext)。

我们看到它首先进行排序：

在这里插入图片描述

首先注意一点，就是在排序前后，kvbuffer并没有变：

在这里插入图片描述

这是我将其复制出来进行观察的结果：

其次，它排序排的是元数据，就是kvmeta的排序，先按分区排，分区一样的按照key排。

在这里插入图片描述