MapReduce学习总结（4）-----MapReduce框架原理

noworldling

已于 2022-03-22 16:59:46 修改

阅读量886

点赞数

分类专栏：大数据 mapreduce 文章标签：大数据 hadoop mapreduce

于 2022-03-22 16:03:45 首次发布

本文链接：https://blog.csdn.net/weixin_46002001/article/details/123661014

版权

大数据同时被 2 个专栏收录

26 篇文章 7 订阅

订阅专栏

mapreduce

9 篇文章 1 订阅

订阅专栏

MapReduce框架原理

在这里插入图片描述

1. InputFormat数据输入

1.1切片与MapTask并行度决定机制
MapTask 的并行度决定 Map 阶段的任务处理并发度，进而影响到整个 Job 的处理速度。1G 的数据，启动8 个 MapTask，可以提高集群的并发处理能力。但是 1K 的数据，也启动 8 个 MapTask，并不会提高集群性能。
数据块: Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。
数据切片:数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位，一个切片会对应启动一个 MapTask。
在这里插入图片描述

1.2FileInputFormat 切片机制
切片机制
(1)简单地按照文件的内容长度进行切片
(2)切片大小，默认等于Block大小
(3)切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
实例如下
在这里插入图片描述

1.3FileInputFormat 实现类
FileInputFormat 常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat 和自定义 InputFormat 等。
(1) TextInputFormat
TextInputFormat 是默认的 FileInputFormat 实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量，值是这行的内容，不包括任何行终止符(换行符和回车符)。
缺点：TextInputFormat 切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个 MapTask，这样如果有大量小文件，就会产生大量的 MapTask，处理效率极其低下。

(2) CombineTextInputFormat
CombineTextInputFormat 用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个 MapTask 处理。
在这里插入图片描述

2.MapReduce 工作流程

在这里插入图片描述
上面的流程是整个 MapReduce 最全工作流程，但是 Shuffle 过程只是从第 7 步开始到第 16 步结束，具体 Shuffle 过程详解，如下:
(1)MapTask 收集我们的 map()方法输出的 kv 对，放到内存缓冲区中
(2)从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件 （当内存缓冲区被写入80%后，开始溢写。）
(3)多个溢出文件会被合并成大的溢出文件
(4)在溢出过程及合并的过程中，都要调用 Partitioner 进行分区和针对 key 进行排序
(5)ReduceTask 根据自己的分区号，去各个 MapTask 机器上取相应的结果分区数据
(6)**ReduceTask 会抓取（主动提取而不是MapTask传送）**到同一个分区的来自不同 MapTask 的结果文件，ReduceTask 会将这些文件再进行合并(归并排序)
(7)合并成大文件后，Shuffle 的过程也就结束了，后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group，调用用户自定义的 reduce()方法)
注意:
(1)Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。
(2)缓冲区的大小可以通过参数调整，参数:mapreduce.task.io.sort.mb 默认 100M。

3.Shuffle 机制

3.1Shuffle
Map 方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle。
在这里插入图片描述

3.2 Partition 分区
要求将统计结果按照条件输出到不同文件中。
默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个 key存储到哪个分区。

自定义Partitioner步骤
重写getPartition()方法
在Job驱动中，设置自定义Partitioner
自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask**（不设置reducetask数量，默认为1）**

分区总结
(1)如果ReduceTask的数量> getPartition的结果数，则会多产生几个空的输出文件part-r-000xx;
(2)如果1<ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception;
(3)如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个 ReduceTask，最终也就只会产生一个结果文件 part-r-00000;
(4)分区号必须从零开始，逐一累加。

3.4 WritableComparable 排序
排序是MapReduce框架中最重要的操作之一。
MapTask和ReduceTask均会对数据按照key进行排序。该操作属于 Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。
默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。
对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序（在内存中完成），并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。
对于ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写磁盘上，否则存储在内存中。如果磁盘上文件数目达到一定阈值，则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

排序方法
(1)部分排序
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。
(2)全排序
最终输出结果只有一个文件，且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了MapReduce所提供的并行架构。
(3)辅助排序
(GroupingComparator分组) 在Reduce端对key进行分组。应用于:在接收的key为bean对象时，想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时，可以采用分组排序。
(4)二次排序
在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序。

3.5 Combiner 合并
(1)Combiner是MR程序中Mapper和Reducer之外的一种组件。 (2)Combiner组件的父类就是Reducer。
(3)Combiner和Reducer的区别在于运行的位置
➢ Combiner是在每一个MapTask所在的节点运行;
➢ Reducer是接收全局所有Mapper的输出结果;
(4)Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。
(5)Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv 应该跟Reducer的输入kv类型要对应起来。（比如说求平均值时就不能用combiner）