MapReduce通俗语言讲述运行原理

最新推荐文章于 2021-06-24 10:33:26 发布

xiaoxaoyu

最新推荐文章于 2021-06-24 10:33:26 发布

阅读量98

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoxaoyu/article/details/109632506

版权

Hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

MapReduce运行原理

- 一、写入文件
- 二、MapReduce计算

先假设一个待解决的问题：如何把一份300M的文件，统计到每个单词的词频输出出来？
首先，将这个任务分解为以下几个大的步骤：

把文件写进DataNode；
将计算框架分发到各个DataNode，读取文件内容并进行计算，这个过程就是MapReduce的过程
将计算完的结果写进磁盘

一、写入文件

从客户端写入文件，涉及到的步骤主要是，请求写入-反馈节点-开始写入-日志更新

第一步，客户端先跟yarn请求上传文件，yarn新建一个applicationmaster，用于资源调度，查看各个节点的状况，检索出3个可用节点(dn1dn2dn3)给客户端；
第二步，客户端根据返回的节点参数对文件进行切块，3个节点切为128+128+44的大小，然后开始向dn1请求发送文件，dn1调用dn2，dn2调用dn3，就形成了一个通信管道，然后使用bytebuffer依次在各个节点上写入文件。所有文件块写完之后，向客户端返回结果。
第三步，客户端向yarn反馈写入结果，创建本次写入的editlog日志，由secondaryNameNode合并日志和NameNode上的fsimage镜像文件，合并完之后把这个新的fsimage发给NameNode，然后NameNode的镜像文件。到这整个写入的过程就结束了。

二、MapReduce计算

客户端向yarn请求计算，yarn返回给客户端要计算的DataNode节点，并在节点上面建立一个AppMaster，然后AppMaster启动3个节点上的MapReduce，进入到MapReduce计算阶段。

第一步，通过InputFormat确定读取方式(默认是text)，用RecordReader去读取文件块，循环一次读一行，也就是一个键值对；作为参数传入到map方法里，计算完后，把计算后的结果组装成键值对通过context.write发出去，发出去之后再去接收一个新的行。
第二步，计算完之后，map对象把结果都发到OutputCollector，然后再由收集器把数据发送到100M容量的环形缓冲区(数组)。
第三步，环形缓冲区数据每达到80%，就会溢出生成一个小文件。溢出之前会做分区计算，hash键值对的键，并且对小文件内做快排排序。
第四步，shuffle(洗牌)过程开始，如果设置了combiner，则会在排序时进行局部的value合并。文件块较大时会溢出多个文件，然后再对多个小文件进行merge归并排序操作，最终形成一个大文件，这个大文件是分区且区内有序的。到这里map端的shuffle过程就结束了。
第五步，所有分区的map任务都结束以后，然后启动相应数量的reduce任务，一个reduce处理一个分区的数据。reduce任务会从不同的map中拉取到相应分区中的数据，然后在reduce的shuffle过程会再一次进行归并排序，最终形成一个键有序的大文件。shuffle过程结束。
第六步，进入到reduce方法之前，会通过groupingcomparator进行一次聚合分组，分组完之后然后每对键值会依次进入到reduce方法内进行逻辑计算。
第七步，计算完之后，调用outputformat方法将数据写入磁盘，形成文件(part-r-000**)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce通俗语言讲述运行原理

问题：MapReduce是做什么的？MR的过程是怎样的？@[TOC]MapReduce简介JOB解决一个问题，任务名字叫WordCount做这个任务，要先把文件上传到HDFS里上传文件(写数据)主要组件NameNodeSecondaryNameNodeyarn：ResourceManageryarn是一个概念名词，映射进来就是RM和DataNode上的NodeManager始终保持联系DataNode文件不备份在同一节点上客户端向yarn请求上传文件，yarn查看一个包含各个节点
复制链接

扫一扫

专栏目录

xiaoxaoyu CSDN认证博客专家 CSDN认证企业博客

码龄4年

144: 原创

3万+: 周排名

191万+: 总排名

17万+: 访问

: 等级

1848: 积分

5368: 粉丝

127: 获赞

66: 评论

528: 收藏

私信

关注

热门文章

分类专栏

实时数仓 1篇
NoSQL 4篇
数据可视化 2篇
Hive 16篇
SQL 14篇
Java高级 15篇
SSM 6篇
设计模式 2篇
sqoop 1篇
HBase 10篇
Flink 2篇
Spark 16篇
Python 6篇
算法 1篇
机器学习 2篇
Kafka 12篇
Scala 10篇
数仓 11篇
Shell 8篇
Flume 3篇
Hadoop 13篇
Maven 1篇
Java基础 14篇
Docker 2篇
Linux 2篇
Zookeeper 1篇

最新评论

SpringBoot连接Oracle
后端漫漫: 准确来说，oracle是面向用户的，mysql是面向数据库的。oralce只有一个数据库，叫orcl，而mysql有多个数据库。（如有错误，轻点喷）
SpringBoot连接Oracle
♡［纯白记忆］♡: 配置文件中，url最后一个就是数据库名啊，orcl
SpringBoot连接Oracle
中布斯: 不用指定数据库？
SpringBoot连接Oracle
十夫长: 那两个依赖的jar包用哪个？ojdbc6 还是 ojdbc8？
FineReport部署
小杨同学-yyx: 为什么我的项目不会显示，我把项目拷贝到reportlets下面了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。