MapReduce中reduce端的源码分析

最新推荐文章于 2022-02-06 16:22:35 发布

道法—自然

最新推荐文章于 2022-02-06 16:22:35 发布

阅读量679

点赞数

分类专栏： MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyqwilliam/article/details/82825521

版权

MapReduce 专栏收录该内容

51 篇文章 2 订阅

订阅专栏

MapReduce中reduce端的源码分析：

父类依然有run方法，依然有上下文，并且在上下文会判断

其实在里边传递的是迭代器对象

reduce端完成三种事情：

①：shuffle，就是拉取数据

②：sort就是排序

③：reduce就是按组计算

只有在map端才是真正的排序，其他的都是归并排序，内部有序，外部无序

一共做了三件事情：

shuffle的过程：

这个迭代器就是reduce端的输入：

排序有比较，分组也有比较

分组比较的结果有两种：等于和不等于

分组的宽度小于排序的宽度

在map端首先看用户有没有设置比较器（排序比较器），如果没有设置就按照默认的比较器进行排序

在reduce端首先看用户有没有设置分组比较器，如果用户没有设置，那么再看有没有设置排序比较器，如果连排序比较器都没有设置，那么就按照默认的比较器来比较。

在map端调用的是next key value

在reduce阶段调用的是next key

先清空数据

一组中的第一条数据和上一组的最后一条数据之间是没有关系的

map端的输出是reduce端的输入，map输出会序列化key和value到内存，内存的东西会序列化到磁盘，也是序列化的结果给reduce端计算的时候是需要进行反序列化的。

先拿出第一条数据，然后再拿出第二条数据与第一条进行比较

reduce端的返回数组：GetCurrentValues

getcurrentkey直接将key的值返回

getvalues：返回的是iterable

next key value方法会使用真迭代器

这里是真迭代器：

这里是假迭代器：

next key is same才会调用这一次方法：这样就调用了源语;相同的key为一组，这一组key调用一次reduce方法

道法—自然

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
MapReduce中reduce端的源码分析

MapReduce中reduce端的源码分析：父类依然有run方法，依然有上下文，并且在上下文会判断其实在里边传递的是迭代器对象reduce端完成三种事情：①：shuffle，就是拉取数据②：sort就是排序③：reduce就是按组计算只有在map端才是真正的排序，其他的都是归并排序，内部有序，外部无序一共做了三件事情：shuffle的过程： ...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。