MapReduce之Reduce

最新推荐文章于 2023-09-08 13:12:16 发布

spark man

最新推荐文章于 2023-09-08 13:12:16 发布

阅读量400

点赞数 1

分类专栏：大数据 # hadoop 文章标签： hadoop mapreduce reduce 源码 mergeSort

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43810802/article/details/120760530

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

我们接着MapReduce之Shuffle

Reduce

Copy

在这里插入图片描述

走到这里，我们就进入到reduce了。

在这里插入图片描述

reduce有三个明确的阶段：copy，sort，reduce。

在初始化ShuffleConsumerPlugin的时候，他需要创建一个MergeManager：

在这里插入图片描述

在这里插入图片描述

这个MergeManager就是用来做文件合并的。

在这里插入图片描述

接下来我们使用localFetcher去拉取map的输出文件。

在这里插入图片描述

在此我们将获取file.out文件和file.out.index文件。

在这里插入图片描述

我们将所有的data读取到memory这个byte数组中。

在这里插入图片描述

此时copy就结束了。

Merge

在这里插入图片描述

我们进入merger.close()并注意它的返回值是RawKeyValueIterator，这里将封装所有数据。

在这里插入图片描述

在finalMerge中，它经历了几次merge，我们看看最终的效果：

在这里插入图片描述

首先磁盘上有溢写的merge file。

在这里插入图片描述

最终返回的MergeQueue是一个RawKeyValueIterator，它里面有一个Object数组存放着所有数据。

在这里插入图片描述
最后我们会将RawKeyValueIterator传递下去跑reducer。

Reduce

在这里插入图片描述

首先我们要构建一个Reducer的上下文对象，将他作为参数扔到reducer.run中。

这时候就会来到我们熟悉的自定义的reduce方法。

在这里插入图片描述

我们将跟踪context.nextKey()方法，看他经历了哪些过程：

在这里插入图片描述

在这里插入图片描述

注意此时的key和value都是空的，而那个input就是我们一直关注的RawKeyValueIterator。

在这里插入图片描述

这里的buffer已经有了hadoop这个词的位置和数据了。

跟踪key = keyDeserializer.deserialize(key);

在这里插入图片描述

最后我们读到了hadoop并返回，注意到writable.readFields(dataIn)的dataIn就是之前的buffer对象。

在这里插入图片描述

这样我们就进到了自己的reduce方法。因为之前排过序（归并排序）了，所以同一个key的数据会一次性进入reduce方法。

写完后我们就会得到一个分区的结果：

在这里插入图片描述

然后再来一个ReduceTask处理第二个分区：

在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark man CSDN认证博客专家 CSDN认证企业博客

码龄6年

128: 原创

24万+: 周排名

215万+: 总排名

14万+: 访问

: 等级

2036: 积分

37: 粉丝

189: 获赞

30: 评论

259: 收藏

私信

关注

热门文章

分类专栏

爬虫 1篇
python 1篇
大数据 18篇
clickhouse
hbase 1篇
项目 2篇
spark 9篇
hadoop 7篇
k8s 1篇
dubbo 3篇
netflix_springcloud 3篇
计算机基础 3篇
netty 4篇
tomcat 1篇
java基础 27篇
linux 4篇
springboot 6篇
mybatis 6篇
spring 19篇
前端 2篇
redis 8篇
MySQL 6篇
数据分析 1篇
机器学习 10篇

最新评论

玩转单例模式
weixin_46316529: 能讲讲反射和类加载的过程吗
玩转单例模式
weixin_46316529: 太几把强了，不过有个疑惑，在双重检索创建单例的方式这块，既然创建对象不是原子性操作，那么即使防止指令重排序也可能出现重复的对象创建，比如在执行到分配内存地址时，其它的线程就可能进入了并开始创建对象了。另外枚举类的单例模式不太懂，我还得看看枚举类
spark对接elasticsearch遇到的坑
书香恋仁心: 解决了，应该就是jar包冲突的原因
mysql乐观锁实例
spark man: 其实就是希望某个时间段数据是稳定的，不能改，比如统计业务，某个时间点的统计；对账；还有数据迁移备份
spark对接elasticsearch遇到的坑
spark man: ClassNotFoundException一般都是版本问题吧

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。