目录
MapReduce介绍
Map
将文件中的数据进行切割,组合成键值对,例如统计文件中的单词,可以将每个单词切割出来作为key,1作为值,形成很多<word,1>这样的键值对。即将输入的键值对Map(映射)成其他的键值对。
Reduce
默认进行的操作:先将Map的结果减少(reduce)方便后面的业务处理,将<key,value1>,<key,value2>变为<key,[value1,value2]>形式。之后根据业务要求进行编写代码。
MR处理程序的各阶段
Map阶段的执行流程
- 阶段一:把输入目录下文件按照一定标准逐个进行逻辑分片,默认一个切片大小为一个块的大小(128M),每个片都由一个MapTask处理。
- 阶段二:对切片中的数