今天,本姑娘和大家聊一聊mapreduce。吐血整理,各位小板凳坐好啊。如有写错的话,也请多多指正。
首先我们了解一下什么是MapReduce。主要是由两个阶段组成。Map和Reduce。用户只需要编写map()和reduce()两个函数。即可完成简单分布式程序计算。
流程介绍:
①②③InputFormat
InputFormat接口决定了输入文件如何被Hadoop分块。InputFormat能够从一个job中得到split集合。然后再为这个split提供一个何时的RecordReader(getRecordReader)来读取每个split中的数据。
public abstract class InputFormat<K, V> {
public InputFormat() {
}
public abstract List<