Hadoop3教程（七）：MapReduce概述

最新推荐文章于 2024-06-27 22:44:53 发布

经年藏殊

最新推荐文章于 2024-06-27 22:44:53 发布

阅读量594

点赞数

分类专栏：大数据技术文章标签： mapreduce 大数据 hadoop

本文链接：https://blog.csdn.net/wlh2220133699/article/details/133834546

版权

大数据技术专栏收录该内容

37 篇文章 9 订阅

订阅专栏

文章目录

（68） MR的概述&优缺点
（69）MR的核心思想
- MapReduce进程
（70）官方WC源码&序列化类型
（71）MR的编程规范
（72）WordCount案例需求分析
参考文献

（68） MR的概述&优缺点

MapReduce是一个分布式运算程序的编程框架，简单的说，就是一个 分布式计算框架，是Hadoop的核心所在。

MR的核心功能，是将用户编写的业务逻辑代码和自身组件相融合，整合成一个完整的分布式运算程序，并发运行在Hadoop集群上。

优点：

易于编程。用户只关心业务逻辑就可以；
良好的扩展性。可动态增加服务器节点，以解决计算资源不足的问题；
高容错性。如果有一台节点崩溃，不会影响整个集群的计算。其他可用节点会接过崩溃节点的任务，继续计算。
适合海量数据的计算。这里的海量，一般是指TB以上级别的。

缺点：

不擅长实时计算。无法达到mysql这种毫秒级查询，无法快速响应；
不擅长流式计算。指数据一条条过来，实时的流式计算。一般是spark streaming和flink适合做这个。MR的特性决定了其数据源必须是静态的。
不擅长DAG有向无环图。像是迭代计算，即DAG中，任务一的输出会作为任务二的输入，任务二的输出则会作为任务三的输入，以此类推，是一个链式的结构。MR不擅长处理这种，当然，只是不擅长，不是不支持。相比来讲，spark更适合用来处理这种任务。（因为spark的中间结果是基于内存的，而MR是基于磁盘，重复IO性能太低下）

（69）MR的核心思想

经典案例：统计一段话中每个单词出现的总次数，其中a~p的结果放在一个文件，q~z的结果放在一个文件里。

MR的计算分为两个阶段：Map阶段和Reduce阶段。

接下来我们以经典案例，来讲解MR的主要工作流程，如图：

在这里插入图片描述

1） Map阶段，是任务分配阶段，一般是按照块大小，每个MapTask负责处理一块数据。这个块一般是128M。

这个阶段的MapTask并发实例，完全并发运行，互不相干。

在我们刚说的这个案例里，MapTask中都做了些什么呢？

一行一行读数据，进行处理；
按照空格分割行内单词；
把切出来的单词，组成KV键值对（单词，1）
将所有的KV键值对，按照单词首字母，分成两个分区（ap分区和qz分区），导出至磁盘保存。

2） Reduce阶段，就是任务汇总统计阶段。

这一阶段的ReduceTask并发实例也是互不相干，但是它们依赖于Map阶段所有MapTask并发实例的输出。

在这个案例里，因为结果需要有2个文件，所以这里会有2个ReduceTask，一个负责汇总出ap，一个负责汇总出qz，并分别输出至文件。

在一个MR计算过程中，只能包含一个Map阶段和一个Reduce阶段。如果用户的业务逻辑过于复杂，那么可以创建多个MR计算程序，串行计算。这就相当于链式的有向无环图计算了。

一些问题细节：

MapTask内部是如何工作的？
ReduceTask内部是如何工作的？
MapTask内部是如何排序、控制分区的？
MapTask和ReduceTask之间是如何衔接的？

这些问题都将在后面一一解答。

MapReduce进程

一个完整的MR程序在分布式运行的时候，会产生三种类型的进程：

MrAppMaster：是ApplicationMaster的子进程，负责整个Mr程序的过程调度及状态协调；
MapTask：负责Map阶段的数据处理流程；
ReduceTask：负责Reduce阶段的数据处理流程

MapTask和ReduceTask似乎都是yarnchild，这里仅供参考一下。

（70）官方WC源码&序列化类型

WordCount（即WC），这是Hadoop里一个很经典的MR案例，教程后面很多地方在讲解底层原理的时候都会以WC为例做讲解。

官方WordCount的源码在哪儿呢？

大概在Hadoop安装目录的share/hadoop/mapreduce/hadoop-mapreduce-example-xxx.jar，这里面存储了Hadoop的一些代码案例。

jar包反编译工具：jd-gui。

WC的源码里，核心是三个类：

主类，负责调度/驱动
TokenizerMapper类，继承了Mapper
IntSumReducer类，继承了Reducer

分工很明确。

另外，这里简单介绍下hadoop中常用的数据序列化类型，后面讲序列化的时候会用到：

Java类型	Hadoop Writable类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable