文章目录
1.介绍一下MR
MapReduce是Hadoop中负责计算部分。主要分为split、map、shuffle、reduce四个阶段,以wordcounter为例解释:
1)Split:MapReduce会将输入文件进行切块(默认以128M为单位进行切割),每一份代表每一行。
2)Map:解析每一行中的每个单词,并标记1,表示此单词出现了一次
3)Shuffle:将每一份中相同的单词分组到一起,并按照字母顺序进行升序排序
4)Reduce:将每一组中的单词出现次数进行累加求和。
最后将整理好的数据输出到HDFS中。
2.Split
2.1 分片概念
这里的分片只是逻辑分片,根据文件的字节索引进行分割。比如0—1MB位置定义为第一个分片,1MB-2MB定义为为第二个分片,依次类推……而原来的大文件还是原来的大文件,不会受到影响.
因此,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。
2.2 分片数量与Map Task数量的关系
Map Task的个数等于split的个数。 mapreduce在处理大文件的时候,会根据一定的规则,把大文件划分成多个分片,这样能够提高map的并行度。 划分出来的就是InputSplit,每个map处理一个InputSplit,因此,有多少个InputSplit,就有多少个map task。
2.3 由谁来划分分片?
主要是 InputFormat类 来负责划分Split。InputFormat类有2个重要的作用:
1)将输入的数据切分为多个逻辑上的InputSplit,其中每一个InputSplit作为一个map的输入。
2)提供一个RecordReader&