hadoop使用combiner合并操作

前言

任务从MapperTask出来的时候,数据要暂存在一段缓存空间,然后ReducerTask再拉取这些数据进行处理,map到reduce中间的这一段操作,官方称作为 shuffle

通过前面的章节我们了解到,往往来说,MapperTask的任务数量是多于ReduceTask的,这是因为原始的待处理的文件可能很大,在某些场景下,比如日志文件可能达到TB级别的,于是为了提升Map阶段的任务并行处理能力,需要开启更多的MapTask

为什么需要combiner

combiner顾名思义,为合并的含义,为什么需要合并呢?还记得在wordcount案例中,原始的数据内容格式吗?

关羽 关羽
赵云 
刘备 刘备
黄盖
张飞
马超
魏延

在Map阶段,通过代码调试,我们发现,从Map出去,然后进入到Reduce方法中时,相同的key的内容会循环输出
在这里插入图片描述
如果以上面的文本内容为例说明的话,经过Map之后,第一行中的“关羽”这个词,将会拆分成这样 (关羽 1),(关羽 1) ,就是说,key是重复的,假如原始的文件非常大,并且里面重复的内容也特别多,这种重复的数据带来的从map到reduce中间因为数据传输带来的影响就非常大了

假如有一种方法,可以将相同的key进行合并,比如“

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小码农叔叔

谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值