【Hadoop】【 MapReduce】【shuffle机制】【03】 Combiner

败给你的黑色幽默丶

已于 2022-02-19 17:44:21 修改

阅读量174

点赞数

分类专栏： Hadoop 文章标签： hadoop

于 2021-09-26 21:57:30 首次发布

本文链接：https://blog.csdn.net/weixin_43589563/article/details/120497631

版权

本文介绍了Combiner组件在MapReduce中的作用，如何在Mapper任务后进行局部聚合以减少网络I/O，并提供了自定义Combiner的示例和优化实践。重点讨论了Combiner与Reducer的区别，以及如何在Wordcount场景中有效利用它们来提高性能。

摘要由CSDN通过智能技术生成

Combiner

在这里插入图片描述

Combiner 是MapReduce程序中，Mapper 和 Reducer 之外的一种组件
Combiner 的父类就是Reducer，因此Combiner本身也是做聚合使用的
Combiner 和Reducer的核心区别在于：
Combiner在每一个MapTask的屁股做聚合
Reduce是对所有MapTask汇聚在一起做聚合
Combiner 就是预聚合，对MapTask局部汇总，减少网络IO
Combiner的使用是有业务场景的，预聚合不影响整体业务输出的时候才可以使用；
Combiner的输入kv就是Mapper输出的kv，并且和Reducer的kv是一样的
Combiner的工作时机在MapTask溢写到磁盘前；

自定义Combiner实现步骤

自定义一个Combiner继承Reducer，重写Reduce方法：

public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritable>{
   

	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

败给你的黑色幽默丶

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据｜MapReduce模型 | Hadoop MapReduce的基本工作原理

知识库搭建ing

03-29

1414

MapReduce模型 | Hadoop MapReduce的基本工作原理

浅谈Hadoop中的shuffle机制

m0_52931616的博客

11-30

1023

浅谈Hadoop中的shuffle机制、解析源码各个类和方法的作用以及优化策略

参与评论您还未登录，请先登录后发表或查看评论

MapReduce内部shuffle过程详解（Combiner的使用）

汤小萌的博客

11-14

4070

Maptask调用一个组件FileInputFormat FileInputFormat有一个最高层的接口 --> InputFormat 我们不需要去写自己的实现类，使用的就是内部默认的组件：TextInputFormat maptask先调用TextInputFormat, 但是实质读数据是TextInputFormat调用RecordReader。 RecordReader 是一个...

MapReduce中的shuffle机制

everl_1的专栏

09-04

1102

shuffle机制是mapreduce整个处理过程中的核心机制，涉及到了分组、排序、数据缓存以及中间结果传递（map结果怎么交付给reduce），其整个过程可以用一张图表示。 1.分组当没有自定义分组时，默认所有的key在一个分组中。如果有自定义分组，则按照自定义的分组逻辑进行分组，对应图中的partitions，一个分组为一个partition。从图中可以看出一个partition被传

MapRedeuce中的Combiner、Shuffle机制

gltncx11的博客

11-26

399

1.MapReduce中的Combiner - Combiner是MapReduce程序中Mapper和Reducer之外的一种组件. - Combiner组件的父类就是Reducer. - Combiner和Reducer的区别在于运行的位置: 1. Combiner是在每一个maptask所在的节点运行 2. Reducer是接收全局所有Mapper的输出结果 - Combiner的意义就是对...

MapReduce中的Combiner

YF_Li123的博客

09-09

747

前言 MapReduce框架使用Mapper将数据处理成一个个的<key, value>键值对，然后在网络节点间对其进行整理（shuffle），最后使用Reducer处理数据并输出。分析从上面的过程中，我们可以分析出两个性能瓶颈：网络传输压力：比如我们有100亿条数据，Mapper就会生成100亿条键值对在网络间传输。如果我们只是对数据求最大值，那么很明显每一个Mapper只需要输出它所处理的数据中的最大值即可。这样不仅能减少网络传输压力，同时也能提升程序处理...

Hadoop MapReduce Shuffle机制之Combiner合并 | 水一篇博客

lesileqin的博客

04-19

235

Combiner合并机制 Combiner合并也属于Shuffle机制 Combiner的父类是Reducer Combiner和Reducer的区别在于运行时的位置 Combiner是在每一个MapTask所在的节点运行的 Reducer接收全局所有Mapper的输出结果 Combiner的意义就是对每一个MapTask的输出进行局部汇总，主要目的是为了减小网络的传输量并不是所有的场景都能适用Combiner，一般主要用于求和操作实现Combiner的步骤就是继承Reducer，最后在Dri

Hadoop MapReduce Shuffle 过程解析

超越时代

02-28

634

mapreduceShuffle过程解析 Shuffle过程是Mapreduce的核心，要想理解Mapreduce，Shuffle过程是必须了解的。 Shuffle的本义是洗牌，混乱，把一组有规则的数据转换成一组无规则的数据，Mapreduce中的shuffle更像是洗牌的逆过程，把map端处理完的数据规约到reduce端，更像是一个整合的过程，把相对无规则的数据转换成有规则的数据。为什么M...

Hadoop基础【MapReduce中的Shuffle机制】

weixin_43923463的博客

03-14

2221

配置HDFS的StaticUser 配置完成之后，可以在浏览器上实现对集群的管理（创建文件夹，删除文件夹等） cd /opt/module/hadoop-3.1.3/etc/hadoop/ vim core-site.xml <property> <name>hadoop.http.staticuser.user</name> <value>hike</value> </property> xsync

Hadoop MapReduce实战手册(完整版)

08-28

《Hadoop MapReduce实战手册》是一本专注于大数据处理技术的专著，主要针对Apache Hadoop中的MapReduce框架进行了深入的探讨。MapReduce是Hadoop生态系统中的核心组件之一，用于处理和生成大规模数据集。该书旨在...

MapReduce中Shuffle的机制

abc5254065的博客

01-22

393

Shuffle过程指的是MapTask的map方法之后，ReduceTask的reduce方法之前的数据处理过程，Shuffle过程是MR中最关键的一个流程； Shuffle过程包括Collect阶段，Spill阶段，两次Merge阶段，Copy阶段，Merge阶段以及Sort阶段，每阶段过程如下： ...

复习MapReduce之shuffle的combiner阶段

qq_45450889的博客

02-15

314

什么是combiner？ Combiner是一个位于map和reduce之外的组件； Combiner组件的父亲就是reducer； Combiner和Reducer的区别就是运行的位置不同： Combiner在每个maptask节点运行 Reducer是接收全局所有Mapper的结果作用：对每个maptask进行局部汇总，减小网络传输量使用场景：不能影响最终的业务逻辑 ...

Hadoop入门（九）Mapreduce高级shuffle之Combiner

茅坤宝骏氹的博客

10-06

387

一、Combiner的出现（1）为什么需要进行Map规约操作在上述过程中，我们看到至少两个性能瓶颈：（1）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力，同样也可以大幅度提高程序效率。总结：网络带宽严重被占降低程序效率；（2）假设使用美国...

Hadoop-MR的map切片+reduce分区及预合并

互联网知识分享

05-09

421

默认情况下TextInputformat对任务的切片机制是按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个maptask，这样如果有大量小文件，就会产生大量的maptask，处理效率极其低下。（2）注：在看idea的运行结果number of splits：xxx 时，和最大值(MaxSplitSize)有关，这里看的是最大切片的值，最小值不看。每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，128MB固定值,不是切片大小的1.1陪)，如果剩下的不大于1.1倍就与前面的片合并，

大数据学习之路，Hadoop中可优化的操作点

qq_42559628的博客

03-30

1743

combiner(预聚合) 介于map和reduce之间的一个reduce操作，但是是运行在MapTask；作用：减少数据的网络传输，是一个非常重要的调优点举个简单的例子： MapTask1:(a,1)(a,1)(b,1)(b,1) MapTask2:(a,1)(a,1)(b,1) 经过shuffle后有两个reduce ReduceTask1:(a,(1,1,1,1)) ReduceTask2:(b,(1,1,1)) 如果预聚合一下呢？ MapTask1:(a,2)(b,2) MapTask2:(a,

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

【Hadoop】【 MapReduce】【shuffle机制 】【03】 Combiner

Combiner

自定义Combiner实现步骤

【Hadoop】【 MapReduce】【shuffle机制】【03】 Combiner