详细讲解MapReduce过程

最新推荐文章于 2024-07-31 06:34:39 发布

ShenYounger

最新推荐文章于 2024-07-31 06:34:39 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/wusecaiyun/article/details/98876922

版权

文章1:https://blog.csdn.net/MrLevo520/article/details/76781186

文章2:https://www.jianshu.com/p/352db00b6d7a

补充1：shuffle过程是图中copy phase和sort phase之间的过程。更粗暴口语化的理解是，怎么把map的输出弄到reduce中去。

补充2：map操作是在本地操作的，也就是在数据存储节点上进行的。

补充3：partition就是对map的数据进行归类。

补充4：sort&combiner 内存缓冲区是一个环形缓冲区，map task输出首先进入这个缓冲区，缓冲区大小为100M，当map task输出了80M时，会启动spill进程来把缓冲区中的数据写入到磁盘中。注意：在把数据写入到磁盘之前，也就是当数据还在内存的时候，会对这80M数据进行sort，sort后的数据按照partition数值和key两个关键字升序排序，同一个partition数值的数据，再按照关键字升序排序。再次注意：如果客户端设置了combiner，这个时候，会接着使用combiner。combiner会对有相同key的key-value对进行处理，减少spill到磁盘的数据量，combiner简单来说就是map端的reduce。

补充5：merge map task输出数据比较多的时候，会spill多次，然后生成多个spill文件。最终需要merge归并为一个spill文件。归并是这样的，对于两个键值对<"a",1>和<"a",2>，merge后的结果是<"a",<1,2>>。

补充6：如果客户端设置了combiner，在map task中，有两个地方会执行combiner。第一个地方是spill过程中，对key进行排序后，会触发combiner。第二个地方是将多个spill文件归并为一个文件时，会触发。

补充7：map task中涉及到的排序也有两处。第一处是在spill的过程中，会对partition和key进行排序，这个时候使用的是快排。第二处是在将多个splill文件归并为一个文件时，需要使用归并排序。

补充8：默认情况下，当map task完成5%的时候，一个reduce task开始从多个map task执行机器上copy数据。拷贝数据的过程中，有可能reduce端的内存缓冲区装不下，这个时候也会spill到磁盘形成spill文件。像map task中一样，多个spill文件会需要merge，merge的过程中会归并排序(让key有序)和combiner(对相同key的key-value对进行处理)。最终会形成一个最终文件。最终文件中，key是有序的。然后这个最终文件会被feed到reduce的代码中进行处理。

1.mapred.output.compress、mapred.output.compression.codec。压缩mapreduce作业的输出，应在作业配置过程中将mapred.output.compress设置为true，mapred.output.compression.codec设置为打算压缩的codec类名。

2.map任务的输出需要写到磁盘并通过网络传输到reducer节点,所以如果使用LZO,LZ4或者Snappy这样的快速压缩方式,是可以获取性能提升的。这个时候设置mapred.compress.map.output和mapred.map.output.compression.codec。

3.数据在hdfs上是分布式存储的。

HDFS被实现为一种块结构的文件系统。如图所示，在Hadoop中，单个文件被拆分为固定大小的块存储在Hadoop集群上。对于每个块保存在哪个DataNode上是随机的，其结果是，访问某个文件需要访问多个DataNode，也就是HDFS能存储的文件大小可以远超出单机的磁盘容量。

4.以一个存储在HDFS文件系统中且不进行压缩的大小为 1 GB 的文件为例。如果HDFS的块大小设置为128，那么该文件将被存储在8个块中，把这个文件作为输入数据的MapReduc/Spark作业，将创建8个map/task任务，其中每个数据块对应一个任务作为输入数据。
现在，假如经过gzip压缩后，文件大小为1GB。与之前一样，HDFS也是将这个文件存储成8个数据块。但是每个单独的map/task任务将无法独立于其他任务进行数据处理，官方一点的说法，原因就是因为数据存储在HDFS时是被切成块的，且该压缩算法无法从任意进行读取。
通俗的讲解，就是因为存储在HDFS的每个块都不是完整的文件，我们可以把一个完整的文件认为是具有首尾标识的，因为被切分了，所以每个数据块有些有头标示，有些有尾标示，有些头尾标示都没有，所以就不能多任务来并行对这个文件进行处理。对于这种不可切分的，只有将该文件的所有HDFS的数据块都传输到一个map/task任务来进行处理，但是大多数数据块都没有存储在这个任务的节点上，所以需要跨节点传输，且不能并行处理，因此运行的时间可能很长。

5.mapred.job.max.map.running map task并发数。mapred.job.max.reduce.running reduce task并发数。

mapred.max.map.failures.percent map task允许失败比例。mapred.max.reduce.failures.percent reduce task允许失败比例。

6.mapred.map.max.attempts map task失败重试次数。

mapred.reduce.max.attempts reduce task失败重试次数。

7.mapred.task.timeout

默认情况下，如果一个task 10min没有进行MapReduce的读/写，就会失败。为满足特殊业务需求，例如处理逻辑本身时间>10min的，可以通过上面参数调整task的超时时间。

8.需要MapReduce处理过程中忽略压缩损坏的文件，需要设置参数mapred.ignore.badcompress为true。

9.Customizing How Lines are Split into Key/Value Pairs

stream.map.output.field.separator=:指定使用冒号”:”将map输出的一行分隔为key/value，stream.num.map.output.key.fields=2指定在第二个冒号处进行分隔，也就是第二个冒号之前的作为key，之后的作为value。如果没有冒号或冒号少于两个，则key为整行，value为空。对于reduce的输出，同样也可以用-D stream.reduce.output.field.separator和-D stream.num.reduce.output.key.fields定制key/value分隔方式。

10.利用partitioner二次排序

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -D stream.map.output.field.separator=. \
    -D stream.num.map.output.key.fields=4 \
    -D map.output.key.field.separator=. \ #指定key内部的分隔符 
    -D mapred.text.key.partitioner.options=-k1,2 \ ##这里也可以用num.key.fields.for.partition=2,指定对key分出来的前几部分做partition而不是整个key  
    -D mapred.reduce.tasks=12 \
    -input myInputDirs \
    -output myOutputDir \
    -mapper org.apache.hadoop.mapred.lib.IdentityMapper \
    -reducer org.apache.hadoop.mapred.lib.IdentityReducer \
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

11.TextInputFormat是（默认的inputFormat）

MapReduce默认的inputFormat是TextInputFormat,用于处理文本格式的输入。它的key为一行的偏移量，value为此行的内容。

如果某行的value过大，会导致OOM，建议设置一行处理最大字节数来避免job失败：mapred.linerecordreader.maxlength(单位：字节)，超过设定值部分将被丢弃。

切分大文件：mapred.min.split.size=mapred.max.split.size=需要切分的大小
切分规则：splitSize = max( max(1,minSize(1)), min(maxSize(256M),blockSize(256M)) )

12.

CombineTextInputFormat（输入是小文件时使用）

当处理大量的小数据文件时，如果文件不能被inputformat切分（如gz压缩文件），则会启动很多的map，比如几十万个map，这样会带来几个问题:

对jobtracker内存造成压力。当一个job完成初始化后，jobtracker会在内存中维护该job的所有map/reduce task的相关信息。含有大量task的job会占用jobtracker的大量内存。
每个map处理的数据很小，执行时间很短，比如几秒，则task调度和启动的时间开销将会非常可观，大量的时间花费在task启动时间上。

因此需要使用CombineTextInputFormat对输入数据进行合并。

其核心思想是：根据一定的规则，将HDFS上多个小文件合并到一个 InputSplit中，然后会启用一个Map来处理这里面的文件，以此减少MR整体作业的运行时间。

13.mapred.reduce.slowstart.completed.maps （map完成多少百分比时，开始shuffle）

14.mapred.linerecordreader.maxlength
数据行长度的最大值，防止因为内存溢出导致的错误

15.KeyFieldBasedPartitioner

Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner，通过配置相应的参数就可以使用。通过KeyFieldBasedPartitioner可以方便地实现二次排序。

16.mapred.use.multimembergzip="true"

对输入做解压缩操作。支持一个gz文件有多个压缩块组成,集群上已经默认打开。用户无需设置

17.outputformat org.apache.hadoop.mapred.TextMultiOutputFormat

如果一个reduce输出过大(或者无reduce的map输出过大)，会对下游的job产生较大的处理压力。为了避免此情况，可以采用TextMultiOutputFormat对reduce的输出进行切分，让一个reduce的输出可以至多个文件，
切分后的文件命名类似part-00020-001.gz,不会影响reduce的分区。

使用方式如下：

1.此功能要求输出需要必须采用输出压缩，请先确认输出压缩功能设置为true，再指定压缩方式，下面采用了gz压缩：
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 

2.指定outputformat为TextMultiOutputFormat：
streaming程序请使用老API：
  -outputformat org.apache.hadoop.mapred.TextMultiOutputFormat

18.