MAP/REDUCE-shuffle流程简单概述

最新推荐文章于 2022-12-24 00:08:11 发布

yc_hen

最新推荐文章于 2022-12-24 00:08:11 发布

阅读量478

点赞数

分类专栏： Haoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yc_hen/article/details/86983652

版权

Haoop 同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述
我简单地将shuffle流程分成以下两部分：

map task
程序会根据InputFormat将输入文件分割成splits，每个split会作为一个map task的输入，每个map task会有一个内存缓冲区，输入数据经过map阶段处理后的中间结果会写入内存缓冲区（环形缓冲区，这个暂时就不深入了），并且决定数据写入到哪个partitioner，当写入的数据到达内存缓冲区的的阀值(默认是0.8)，会启动一个线程将内存中的数据溢写入磁盘，同时不影响map中间结果继续写入缓冲区。在溢写之前，MapReduce框架会对key进行分区和排序，如果中间结果比较大，会形成多个溢写文件（按区划分），最后的缓冲区数据也会全部溢写入磁盘形成一个溢写文件(最少有一个溢写文件)，如果是多个溢写文件，则最后合并所有的溢写文件为一个文件（依然按区划分，伴随有一次排序）。

reduce task
当所有的map task完成后，每个map task会形成一个最终文件，并且该文件按区划分。reduce任务启动之前，一个map task完成后，就会启动线程来拉取map结果数据到相应的reduce task，不断地合并数据，为reduce的数据输入做准备，当所有的map task完成后，数据也拉取合并完毕后，reduce task 启动，最终将输出输出结果存入HDFS上。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。