【MR】MapReduce中shuffle、partition、combiner的作用与关系

【MR】MapReduce中shuffle、partition、combiner的作用与关系

一,shuffle
(一)对shuffle的理解
shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程,也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心,也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图
这里写图片描述

(二)为什么需要shuffle?
将MR简化过程图进行细化,就有了那张经典流程图
这里写图片描述

shuffle过程有一部分是在Map端,有一部分是在Reduce端,下文也将会分两部分来介绍Shuffle过程。
对于Hadoop集群,当我们在运行作业时,大部分的情况下,map task与reduce task的执行是分布在不同的节点上的,因此,很多情况下,reduce执行时需要跨节点去copy其他节点上的map task输出结果,这样造成了集群内部的网络资源消耗很严重,而且在节点的内部,相比于内存,磁盘I/O对性能的影响是非常严重的。如果集群中运行的job
有很多,那么task的执行对于集群内部网络的资源消费非常大。
因此,我们对于MR作业的shuffle过程的期望是:
1,将Map的输出数据完整地传输到Reduce端。
2,在传输数据时,尽可能得减少不必要的带宽消耗。
3,降低磁盘I/O的影响。

二,partition
(一)对partition的理解
partition意思为分开,划分。它分割map每个节点的结果,按照key分别映射给不同的reduce,也是可以自定义的。其实可以理解归类。也可以理解为根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理
partition的作用就是把这些数据归类。每个map任务会针对输出进行分区,及对每一个reduce任务建立一个分区。划分分区由用户定义的partition函数控制,默认使用哈希函数来划分分区。
HashPartitioner是mapreduce的默认partitioner。计算方法是
which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks,得到当前的目的reducer。

(二)partition过程
1,计算(key,value)所属与的分区。
当map输出的时候,写入缓存之前,会调用partition函数,计算出数据所属的分区,并且把这个元数据存储起来。
2,把属与同一分区的数据合并在一起。
当数据达到溢出的条件时(即达到溢出比例,启动线程准备写入文件前),读取缓存中的数据和分区元数据,然后把属与同一分区的数据合并到一起。

(三)自定义partition函数

public static class Partition extends Partitioner<IntWritable, IntWritable> {
   @Override
   public int getPartition(IntWritable key, IntWritable value,int numPartitions) {
                    int Maxnumber = 65223;
                    int bound = Maxnumber / numPartitions + 1;
                    int keynumber = key.get();
                     for (int i = 0; i < numPartitions; i++) {
                     //分区算法
          if (keynumber < bound * i && keynumber >= bound * (i - 1)) {
                              return i - 1;
                                }
                        }
                        return 0;
                }
        }

调用

job.setPartitionerClass(Partition.class);

三,combiner
(一)对combiner的理解
combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。
执行combiner操作要求开发者必须在程序中设置了combiner(程序中通过job.setCombinerClass(myCombine.class)自定义combiner操作)

(二)哪里使用combiner?
1,map输出数据根据分区排序完成后,在写入文件之前会执行一次combine操作(前提是作业中设置了这个操作);
2,如果map输出比较大,溢出文件个数大于3(此值可以通过属性min.num.spills.for.combine配置)时,在merge的过程(多个spill文件合并为一个大文件)中前还会执行combiner操作;

(三)注意事项
不是每种作业都可以做combiner操作的,只有满足以下条件才可以
1,combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致,因为combine本质上就是reduce操作。
2,计算逻辑上,combine操作后不会影响计算结果,像求和,最大值就不会影响,求平均值就影响了。

总结
shuffle就是map和reduce之间的过程,包含了两端的combiner和partition。

若有错误,请大家拍砖!

  • 15
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值