前言
任务从MapperTask出来的时候,数据要暂存在一段缓存空间,然后ReducerTask再拉取这些数据进行处理,map到reduce中间的这一段操作,官方称作为 shuffle
通过前面的章节我们了解到,往往来说,MapperTask的任务数量是多于ReduceTask的,这是因为原始的待处理的文件可能很大,在某些场景下,比如日志文件可能达到TB级别的,于是为了提升Map阶段的任务并行处理能力,需要开启更多的MapTask
为什么需要combiner
combiner顾名思义,为合并的含义,为什么需要合并呢?还记得在wordcount案例中,原始的数据内容格式吗?
关羽 关羽
赵云
刘备 刘备
黄盖
张飞
马超
魏延
在Map阶段,通过代码调试,我们发现,从Map出去,然后进入到Reduce方法中时,相同的key的内容会循环输出
如果以上面的文本内容为例说明的话,经过Map之后,第一行中的“关羽”这个词,将会拆分成这样 (关羽 1),(关羽 1) ,就是说,key是重复的,假如原始的文件非常大,并且里面重复的内容也特别多,这种重复的数据带来的从map到reduce中间因为数据传输带来的影响就非常大了
假如有一种方法,可以将相同的key进行合并,比如“