回顾——MapReduce计算模型

最新推荐文章于 2024-07-24 08:30:24 发布

黑箭

最新推荐文章于 2024-07-24 08:30:24 发布

阅读量3k

点赞数 2

分类专栏： hadoop 大数据文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/yinhenan11/article/details/53691760

版权

（上一节我们回顾了HDFS文件系统，以及其架构原理。那么在这一节，我们来介绍Hadoop的离线计算模型——MapReduce，并以wordcount程序为例详细讲解。）

MapReduce——Hadoop的并行计算框架，来源于谷歌，是一种基于HDFS的离线计算框架。在Hadoop2的YARN出现以后，MR便运行在YARN上了。与Hadoop相关的框架如Hive，Hbase，sqoop等其内部计算都是基于MapReduce。所以想学好hadoop，MapReduce是必不可少的一大重点。

MapReduce主要包含五大模块Input，Map，Shuffle，Reduce，Output，其中shuffle过程是MapReduce中最为复杂，也是灵活性最高的一部分。
我们首先以大数据界的“Hello World”——WordCount程序为例来介绍MapReduce。WordCount程序简单的说就是将一个文件中每一个单词出现的次数统计出来。因为是入门级程序，所以在WordCount中我们只涉及到Map和Reduce。

这里写图片描述

整个WordCount的MapReduce过程如上图（大写的大家默认是小写的吧，忘记修改了）：
（1）首先从文件中以键值对的形式读取数据，默认键为行偏移量，值为一行的字符串；
（2）接着进入Map端。每一次在Map端读取的都是一行字符串，我们先将它按空格分隔，并循环逐一输出。输出的键值对为（字符串，1）（因为MapReduce的整个过程都是以键值对的形式进行的，所以在Map端的输入输出都是键值对）；
（3）进入shuffle过程，这个过程包括分区、排序、分组等等过程；在这里我们只关注分组，shuffle过程默认把相同key的value值存入一个组中，然后将一个迭代器作为值传入reduce端；
（4）reduce收到shuffle过程传来的键值对为，key-字符串，value-迭代器；我们在reduce阶段循环将迭代器中的数字“1”累加，最后的到一个和，那么这个和就是最终的单词数；
（5）将单词和对应的单词数输出到文件中。

这里写图片描述