Hadoop Shuffle 原理(大数据面试高频五)

最新推荐文章于 2023-02-13 17:54:08 发布

东南枝上的大雄

最新推荐文章于 2023-02-13 17:54:08 发布

阅读量120

点赞数

分类专栏： MapReduce 文章标签：大数据 hadoop java

本文链接：https://blog.csdn.net/weixin_67766119/article/details/127175126

版权

MapReduce 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

map 方法之后，reduce 方法之前这段处理过程叫shuffle
map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送给环形缓冲区，环形缓冲区默认大小100M，环形缓冲区到达80%时，进行溢写；溢写前对数据进行排序(快排),排序按照对key的索引进行字典顺序排序；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待reduce端拉取。
每个reducer拉取map端对应分区的数据。拉取数据后先存储到内存中，内存不够了，再存储到磁盘，拉去玩所有数据后，采用归并排序将内存和磁盘中的数据都进行排序。在进入reduce方法前，可以对数据进行分组操作。

相关细节：

maptask 执行，收集maptask 的输出数据，将数据写入环形缓冲区中，记录起始偏移量。
环形缓冲区大小100m，当数据达到80m时，记录终止偏移量。
将数据进行分区(默认分组根据key的hash值%reduce数量进行分区)，分区内进行快速排序。
分区、排序结束后，将数据刷写道磁盘(这个过程，maptask输出的数据写入剩余20%环形缓冲区，同样需要记录起始偏移量)。
maptask结束后将形成的多个小文件做归并排序合并成一个大文件。
当有一个maptask执行完成后，reducetask启动。
reducetask到执行完成maptask的机器上拉取属于自己分区的数据。
reducetask将拉去过来的数据“分组”，每组数据调用一次reduce()方法。
执行reduce逻辑，将结果输出到文件。

另：combine函数的作用？

combine分为map端和reduce端，作用是把同一个key的键值对合并在一起，可以自定义的。combine函数把一个map函数产生的<key,value>对(多个key,value)合并成一个新的<key2,value2>，将新的<key2,value2>作为输入到reduce函数中。这个value2也可以称之为values，因为有多个。这个合并的目的是为了减少网络传输。