MapReduce各阶段步骤

Map阶段2个步骤

1、设置InputFormat类,将数据切分为key-value(k1和v1)对,输入到第二步;
2、自定义Map逻辑,将第一步的结果转换成另外的Key-Value(K2和V2)对

Shuffle阶段的4个步骤

3、对输出的Key-Value对进行分区
4、对不同分区的数据按照相同的key进行排序
5、对分组过后的数据进行初步规约,降低数据的网络拷贝
6、对数据进行分组,相同的key和value放入一个集合中

Reduce阶段的2个步骤

7、对多个Map任务的结果进行排序及合并,编写Reduce函数实现自己的逻辑,对输入的key-value进行处理,转换为新的key-value(K3和V3)输出
8、设置OutputFormat处理保存Reduce输出的Key-Value数据。

【Shuffle机制】

(1)Map 方法之后 Reduce 方法之前这段处理过程叫 Shuffle

(2)Map 方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小 100m,环形缓冲区达到 80%时,进行溢写;溢写前对数据进行排序,排序按照对 key 的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行 Combiner 操作,前提是汇总操作,求平均值不行。最后将文件按照分区存储到磁盘,等待 Reduce 端拉取。

(3)每个 Reduce 拉取 Map 端对应分区的数据。拉取数据后先存储到内存中,内存不够了,再存储到磁盘。拉取完所有数据后,采用归并排序将内存和磁盘中的数据都进行排序。在进入 Reduce 方法前,可以对数据进行分组操作。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值