hadoop使用combiner合并操作

小码农叔叔

已于 2022-08-09 20:32:26 修改

阅读量4.9k

点赞数

分类专栏： hadoop 大数据文章标签： combiner使用 hadoop中combiner

于 2022-01-05 21:41:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangcongyi420/article/details/122330868

版权

大数据同时被 2 个专栏收录

21 篇文章 21 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

13 篇文章 2 订阅

订阅专栏

本文探讨了Hadoop中Combiner的作用，它通过在Map任务本地进行数据合并，减少了从Mapper到Reducer的数据传输量。Combiner需要确保不影响最终结果，并且其输出键值对与Reducer输入匹配。文章还介绍了如何自定义实现Combiner，并通过WordCount案例展示了使用Combiner前后的效果，以此展示其在网络带宽优化上的潜力。

摘要由CSDN通过智能技术生成

前言

任务从MapperTask出来的时候，数据要暂存在一段缓存空间，然后ReducerTask再拉取这些数据进行处理，map到reduce中间的这一段操作，官方称作为 shuffle

通过前面的章节我们了解到，往往来说，MapperTask的任务数量是多于ReduceTask的，这是因为原始的待处理的文件可能很大，在某些场景下，比如日志文件可能达到TB级别的，于是为了提升Map阶段的任务并行处理能力，需要开启更多的MapTask

为什么需要combiner

combiner顾名思义，为合并的含义，为什么需要合并呢？还记得在wordcount案例中，原始的数据内容格式吗？

关羽 关羽
赵云 
刘备 刘备
黄盖
张飞
马超
魏延

在Map阶段，通过代码调试，我们发现，从Map出去，然后进入到Reduce方法中时，相同的key的内容会循环输出
在这里插入图片描述
如果以上面的文本内容为例说明的话，经过Map之后，第一行中的“关羽”这个词，将会拆分成这样 (关羽 1)，(关羽 1) ，就是说，key是重复的，假如原始的文件非常大，并且里面重复的内容也特别多，这种重复的数据带来的从map到reduce中间因为数据传输带来的影响就非常大了

假如有一种方法，可以将相同的key进行合并，比如“

了解本专栏

超级会员免费看

小码农叔叔

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop使用combiner合并操作

hadoop使用combiner合并操作
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小码农叔叔 谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。