Mapreduce不设置reduce，只执行map的输出结果

最新推荐文章于 2022-05-07 19:50:10 发布

原创最新推荐文章于 2022-05-07 19:50:10 发布 · 1.2w 阅读

5 ·

CC 4.0 BY-SA版权

Hadoop相关专栏收录该内容

70 篇文章

订阅专栏

本文探讨了在MapReduce框架中省略Reduce阶段的情况。当任务仅需进行数据格式化等简单操作时，可以通过设置reduce数量为0来跳过此步骤。系统会自动生成一个不执行任何操作的Reduce，输出结果即为Map阶段的输出。

在写MR程序时候，有时我们不需要reduce，比如对原始数据做Format等，这样我们在MR程序中就不需要写reduce函数，同样在main函数配置中也不需要reduce相关的配置信息，在MR执行的过程中，会为MR生成一个系统自带的reduce，这个reduce是系统为了保持框架的完整性自动调用的reduce函数，但这个函数并不做shuffle和数据拖取，生成的结果文件就是map的输出文件，也就是说，有多少个map，那么输出的结果就有多少个文件。so，总结如下：

1. MR可以没有reduce

2. 如果没有reduce，那么系统也会自动生成一个reduce，但是这个reduce不做任何操作，也不做shuffle拖取数据

3. 最终文件的数量就是map的数量，根据数据的输入量和块大小和切片最大最小值有关

4. 最简便的方法就是直接将reduce的数量设置成0