MapReduce通俗语言讲述运行原理


先假设一个待解决的问题:如何把一份300M的文件,统计到每个单词的词频输出出来?
首先,将这个任务分解为以下几个大的步骤:

  1. 把文件写进DataNode;
  2. 将计算框架分发到各个DataNode,读取文件内容并进行计算,这个过程就是MapReduce的过程
  3. 将计算完的结果写进磁盘

一、写入文件

从客户端写入文件,涉及到的步骤主要是,请求写入-反馈节点-开始写入-日志更新

  1. 第一步,客户端先跟yarn请求上传文件,yarn新建一个applicationmaster,用于资源调度,查看各个节点的状况,检索出3个可用节点(dn1dn2dn3)给客户端;
  2. 第二步,客户端根据返回的节点参数对文件进行切块,3个节点切为128+128+44的大小,然后开始向dn1请求发送文件,dn1调用dn2,dn2调用dn3,就形成了一个通信管道,然后使用bytebuffer依次在各个节点上写入文件。所有文件块写完之后,向客户端返回结果。
  3. 第三步,客户端向yarn反馈写入结果,创建本次写入的editlog日志,由secondaryNameNode合并日志和NameNode上的fsimage镜像文件,合并完之后把这个新的fsimage发给NameNode,然后NameNode的镜像文件。到这整个写入的过程就结束了。

二、MapReduce计算

客户端向yarn请求计算,yarn返回给客户端要计算的DataNode节点,并在节点上面建立一个AppMaster,然后AppMaster启动3个节点上的MapReduce,进入到MapReduce计算阶段。

  1. 第一步,通过InputFormat确定读取方式(默认是text),用RecordReader去读取文件块,循环一次读一行,也就是一个键值对;作为参数传入到map方法里,计算完后,把计算后的结果组装成键值对通过context.write发出去,发出去之后再去接收一个新的行。

  2. 第二步,计算完之后,map对象把结果都发到OutputCollector,然后再由收集器把数据发送到100M容量的环形缓冲区(数组)。

  3. 第三步,环形缓冲区数据每达到80%,就会溢出生成一个小文件。溢出之前会做分区计算,hash键值对的键,并且对小文件内做快排排序。

  4. 第四步,shuffle(洗牌)过程开始,如果设置了combiner,则会在排序时进行局部的value合并。文件块较大时会溢出多个文件,然后再对多个小文件进行merge归并排序操作,最终形成一个大文件,这个大文件是分区且区内有序的。到这里map端的shuffle过程就结束了。

  5. 第五步,所有分区的map任务都结束以后,然后启动相应数量的reduce任务,一个reduce处理一个分区的数据。reduce任务会从不同的map中拉取到相应分区中的数据,然后在reduce的shuffle过程会再一次进行归并排序,最终形成一个键有序的大文件。shuffle过程结束。

  6. 第六步,进入到reduce方法之前,会通过groupingcomparator进行一次聚合分组,分组完之后然后每对键值会依次进入到reduce方法内进行逻辑计算。

  7. 第七步,计算完之后,调用outputformat方法将数据写入磁盘,形成文件(part-r-000**)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值