MapReduce运行原理
先假设一个待解决的问题:如何把一份300M的文件,统计到每个单词的词频输出出来?
首先,将这个任务分解为以下几个大的步骤:
- 把文件写进DataNode;
- 将计算框架分发到各个DataNode,读取文件内容并进行计算,这个过程就是MapReduce的过程
- 将计算完的结果写进磁盘
一、写入文件
从客户端写入文件,涉及到的步骤主要是,请求写入-反馈节点-开始写入-日志更新
- 第一步,客户端先跟yarn请求上传文件,yarn新建一个applicationmaster,用于资源调度,查看各个节点的状况,检索出3个可用节点(dn1dn2dn3)给客户端;
- 第二步,客户端根据返回的节点参数对文件进行切块,3个节点切为128+128+44的大小,然后开始向dn1请求发送文件,dn1调用dn2,dn2调用dn3,就形成了一个通信管道,然后使用bytebuffer依次在各个节点上写入文件。所有文件块写完之后,向客户端返回结果。
- 第三步,客户端向yarn反馈写入结果,创建本次写入的editlog日志,由secondaryNameNode合并日志和NameNode上的fsimage镜像文件,合并完之后把这个新的fsimage发给NameNode,然后NameNode的镜像文件。到这整个写入的过程就结束了。
二、MapReduce计算
客户端向yarn请求计算,yarn返回给客户端要计算的DataNode节点,并在节点上面建立一个AppMaster,然后AppMaster启动3个节点上的MapReduce,进入到MapReduce计算阶段。
-
第一步,通过InputFormat确定读取方式(默认是text),用RecordReader去读取文件块,循环一次读一行,也就是一个键值对;作为参数传入到map方法里,计算完后,把计算后的结果组装成键值对通过context.write发出去,发出去之后再去接收一个新的行。
-
第二步,计算完之后,map对象把结果都发到OutputCollector,然后再由收集器把数据发送到100M容量的环形缓冲区(数组)。
-
第三步,环形缓冲区数据每达到80%,就会溢出生成一个小文件。溢出之前会做分区计算,hash键值对的键,并且对小文件内做快排排序。
-
第四步,shuffle(洗牌)过程开始,如果设置了combiner,则会在排序时进行局部的value合并。文件块较大时会溢出多个文件,然后再对多个小文件进行merge归并排序操作,最终形成一个大文件,这个大文件是分区且区内有序的。到这里map端的shuffle过程就结束了。
-
第五步,所有分区的map任务都结束以后,然后启动相应数量的reduce任务,一个reduce处理一个分区的数据。reduce任务会从不同的map中拉取到相应分区中的数据,然后在reduce的shuffle过程会再一次进行归并排序,最终形成一个键有序的大文件。shuffle过程结束。
-
第六步,进入到reduce方法之前,会通过groupingcomparator进行一次聚合分组,分组完之后然后每对键值会依次进入到reduce方法内进行逻辑计算。
-
第七步,计算完之后,调用outputformat方法将数据写入磁盘,形成文件(part-r-000**)