MapReduce的两个阶段和编程规范-CSDN博客

本文链接：https://blog.csdn.net/yuhuhuh/article/details/147954675

（一）MapReduce的两个阶段

第一阶段，也称之为 Map 阶段。这个阶段会有若干个 MapTask 实例，完全并行运行，互不相干。每个 MapTask 会读取分析一个 Inputsplit (输入分片，简称分片) 对应的原始数据。计算的结果数据会临时保存到所在节点的本地磁盘里。

该阶段的编程模型中会有一个 map 函数需要开发人员重写，map 函数的输入是一个 < key,value > 对，map 函数的输出也是一个 < key,value > 对，key和value的类型需要开发人员指定。

第二阶段，也称为 Reduce 阶段。这个阶段会有若干个 ReduceTask 实例并发运行，互不相干。但是它们的数据依赖于上一个阶段所有 mapTask 并发实例的输出。一个 ReduceTask 会从多个 MapTask 运行节点上 fetch 自己要处理的分区数据，经过处理后，输出到 HDFS 上。

该阶段编程模型中有一个 reduce 函数需要开发人员重写，reduce 函数的输入也是一个 <key, value> 对，reduce 函数的输出也是一个 < key,List<value>> 对。需要强调的是，reduce 的输入其实就是 map 的输出，只不过 map 的输出经过 shuffle 技术后变成了<key, List<Value>>而已。参考下图：