MapReduce基础笔记
MapReduce编程模型
一、 MapReduce知识要点
1. MapReduce编程模型
-
Hadoop架构
Hadoop由HDFS分布式存储、MapReduce分布式计算、Yarn资源调度三部分组成
-
MapReduce是采用一种分而治之的思想设计出来的分布式计算框架
-
那什么是分而治之呢?
- 比如一复杂、计算量大、耗时长的的任务,暂且称为“大任务”;
- 此时使用单台服务器无法计算或较短时间内计算出结果时,可将此大任务切分成一个个小的任务,小任务分别在不同的服务器上并行的执行;
- 最终再汇总每个小任务的结果
-
MapReduce由两个阶段组成:
- Map阶段(切分成一个个小的任务)
- Reduce阶段(汇总小任务的结果)
1.1 Map阶段
- map阶段有一个关键的map()函数;
- 此函数的输入是键值对
- 输出是一系列键值对,输出写入本地磁盘。
1.2 Reduce阶段
-
reduce阶段有一个关键的函数reduce()函数
-
此函数的输入也是键值对(即map的输出(kv对))
-
输出也是一系列键值对,结果最终写入HDFS
1.3 Map&Reduce
2. MapReduce编程示例
- 以MapReduce的词频统计为例:统计一批英文文章当中,每个单词出现的总次数
2.1 MapReduce原理
- Map阶段
- 假设MR的输入文件“Gone With The Wind”有三个block;block1、block2、block3
- MR编程时,每个block对应一个分片split
- 每一个split对应一个map任务(map task)
- 有3个map任务(map1、map2、map3);这3个任务的逻辑一样,所以以第一个map任务(map1)为例分析
- map1读取block1的数据;一次读取block1的一行数据;
- 产生键值对(key/value),作为map()的参数传入,调用map();
- 假设当前所读行是第一行
- 将当前所读行的行首相对于当前block开始处的字节偏移量作为key(0)
- 当前行的内容作为value(Dear Bear River)
- map()内,将value当前行内容按空格切分,得到三个单词Dear | Bear | River
- 将每个单词变成键值对,输出出去(Dear, 1) | (Bear, 1) | (River, 1);结果最终写入map任务所在节点的本地磁盘中(内里还有细节,讲到shuffle时,再细细展开)
- block的第一行的数据被处理完后,接着处理第二行;逻辑同上
- 当map任务将当前block中所有的数据全部处理完后,此map任务即运行结束
- 其它的每一个map任务都是如上逻辑,不再赘述
- Reduce阶段
- reduce任务(reduce task)的个数由自己写的程序编程指定,如job.setNumReduceTasks(4)指定reduce任务是4个(reduce1、reduce2、reduce3、reduce4)
- 每一个reduce任务的逻辑一下,所以以第一个reduce任务(reduce1)为例分析
- map1任务完成后,reduce1通过网络,连接到map1,将map1输出结果中属于reduce1的分区的数据,通过网络获取到reduce1端(拷贝阶段)
- 同样也如此连接到map2、map3获取结果
- 最终reduce1端获得4个(Dear, 1)键值对;由于key键相同,它们分到同一组;
- 4个(Dear, 1)键值对,转换成[Dear, Iterable(1, 1, 1, )],作为参数传入reduce()
- 在reduce()内部,计算Dear的总数为4,并将(Dear, 4)作为键值对输出
- 每个reduce任务最终输出文件(内里还有细节,讲到shuffle时,再细细展开),文件写入到HDFS
2.2 MR中key的作用
-
MapReduce编程中,key有特殊的作用
-
数据中,若要针对某个值进行分组、聚合时,需将此值作为MR中的reduce的输入的key
-
如当前的词频统计例子,按单词进行分组,每组中对出现次数做聚合(汇总计算总和);所以需要将每个单词作为reduce输入的key,MapReduce框架自动按照单词分组,进而求出每组即每个单词的总次数
-
另外,key还具有可排序的特性,因为MR中的key类需要实现WritableComparable接口;而此接口又继承Comparable接口(可查看源码)
-
MR编程时,要充分利用以上两点;根据实际业务需求,设置合适的key
-
2.3 创建MAVEN工程
所有编程操作,在hadoop集群某节点的IDEA中完成
- 使用IDEA创建maven工程
- pom文件参考提供的pom.xml,主要用到的dependencies有
<properties>
<cdh.version>2.6.0-cdh5.14.2</cdh.version>
</properties>
<repositories>
<repository>
<id>cloudera</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0-mr1-cdh5.14.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>${cdh.version}</version>
</dependency>
<dependency