MapReduce流程简单解析

最新推荐文章于 2024-08-10 16:30:06 发布

yuzhuzhong

最新推荐文章于 2024-08-10 16:30:06 发布

阅读量1.1w

点赞数 7

分类专栏： Hadoop 文章标签： mapreduce 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuzhuzhong/article/details/51476353

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

　1、MapReduce简介

源自于google的MapReduce论文，发表于2004年12月，HadoopMapReduce是google MapReduce 克隆版。MapReduce是一种计算模型，用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

MapReduce工作流程图

2、MapReduce主要步骤叙述

Map阶段：

Step 1：读取输入文件的内容，并解析成键值对（<key, value>）的形式，输入文件中的每一行被解析成一个<key, value>对，每个<key, value>对调用一次map()函数。

Step 2：用户写map()函数，对输入的<key,value>对进行处理，并输出新的<key,value>对。

Step 3：对Step 2中得到的<key,value>进行分区操作。

Step 4：不同分区的数据，按照key值进行排序和分组，具有相同key值的value则放到同一个集合中。

Step 5（可选）：分组后的数据进行规约。

Reduce阶段：

Step 1：对于多个map任务的输出，按照不同的分区，通过网络传输到不同的Reduce节点。

Step 2：对多个map任务的输出结果进行合并、排序，用户书写reduce函数，对输入的key、value进行处理，得到新的key、value输出结果。

Step 3：将reduce的输出结果保存在文件中。

3、MapReduce的输入输出

从第2点MapReduce的处理流程步骤可以看出，MapReduce框架运转在<key,value>键值对上。也就是说作业的输入输出都是<keey,value>键值对，中间的各种处理也都是对键值对进行处理。

一个MapReduce作业的输入和输出类型如下图所示：可以看出在整个流程中，会有三种不同的<key,value>键值对类型的存在。

4、MapReduce的具体处理流程

以最经典的WordCount单词计数为例来介绍Map/Reduce阶段具体的处理步骤。

WordCount：统计所有文件中每个单词出现的次数，效果如下图

(1) Map任务处理：本次处理中有两个Map任务，以其中一个为例

(2) Reduce任务处理

关注

7
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。