Hadoop 3.x|第十三天|MapReduce框架原理（MapTask工作机制）

最新推荐文章于 2022-12-03 19:55:01 发布

z754916067

最新推荐文章于 2022-12-03 19:55:01 发布

阅读量1.1k

点赞数

分类专栏：数据仓库文章标签： hadoop

本文链接：https://blog.csdn.net/z754916067/article/details/124351842

版权

41 篇文章 3 订阅

订阅专栏

工作阶段

首先划分完后提交切片，jar包和xml给Yarn，Yarn会开启一个MrAppMaster，由MrAppMaster开启MapTask。
MapTask 通过InputFormat获得的RecordReader，从输入 InputSplit 中解析出一个个 key/value。

该节点主要是将解析出的 key/value 交给用户编写的map()函数处理，并产生一系列新的 key/value。

在用户编写 map()函数中，当数据处理完成后，一般会调用
OutputCollector.collect()输出结果。
在该函数内部，它会将生成的 key/value 分区（调用Partitioner），并写入一个环形内存缓冲区中。

即“溢写”，当环形缓冲区满后，MapReduce 会将数据写到本地磁盘上，生成一个临时文件。
需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

当所有数据处理完成后，MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。

利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号Partition 进行排序，然后按照 key 进行排序。
这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照 key 有序。

按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件 output/spillN.out（N 表示当前溢写次数）中。
如果用户设置了 Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。

将分区数据的元信息写到内存索引数据结构 SpillRecord 中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。
如果当前内存索引大小超过 1MB，则将内存索引写到文件 output/spillN.out.index 中。

当所有数据处理完后，MapTask 会将所有临时文件合并成一个大文件，并保存到文件output/file.out 中，同时生成相应的索引文件 output/file.out.index。

在进行文件合并过程中，MapTask 以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并mapreduce.task.io.sort.factor（默认 10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。

让每个 MapTask 最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销

关注