MapReduce解析之Shuffle过程详解

最新推荐文章于 2023-07-16 10:50:35 发布

woailyoo0000

最新推荐文章于 2023-07-16 10:50:35 发布

阅读量436

点赞数

分类专栏： BigData 文章标签： Hadoop MapReduce Shuffle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woailyoo0000/article/details/112634500

版权

BigData 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一. Shuffle执行过程

Shuffle是一个网络拷贝的过程，是指通过网络把数据从map端拷贝到reduce端的过程。

整体如图：

在map阶段，最左边是一个inputsplit，一个inputsplit会产生一个map任务,map任务在执行的时候会把k1,v1转化为k2,v2,这些数据会先临时存储到一个内存缓冲区中，这个内存缓冲区的大小默认是100M（io.sort.mb属性），当达到内存缓冲区大小的80%(io.sort.spill.percent)，也就是80MB的时候，会把内存中的数据溢写到本地磁盘中(mapred.local.dir),一直到map把所有的数据都计算完，最后会把内存缓冲区中的数据一次性全部刷新到本地磁盘文件中，在这个图里面表示产生了3个临时文件，每个临时文件中有3个分区，这是由于map阶段中对数据做了分区，所以数据在存储的时候，在每个临时文件中也划分为3块，最后需要对这些临时文件进行合并，合并为一个大文件，因为一个map任务最终只会产生一个文件，合并之后的最终文件也是有3个分区的。

这个3个分区的数据会被shuffle线程分别拷贝到三个不同的reduce节点，图里面只显示了一个reduce节点，下面还有2个没有显示。不同map任务中的相同分区的数据会在同一个reduce节点进行合并，合并之后会执行reduce的功能，最终产生结果数据。

在这里shuffle其实是横跨map端和reduce端的，它主要是负责把map端产生的数据通过网络拷贝到reduce阶段进行统一聚合计算。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce解析之Shuffle过程详解

一. Shuffle执行过程Shuffle是一个网络拷贝的过程，是指通过网络把数据从map端拷贝到reduce端的过程。整体如图：在map阶段，最左边是一个inputsplit，一个inputsplit会产生一个map任务,map任务在执行的时候会把k1,v1转化为k2,v2,这些数据会先临时存储到一个内存缓冲区中，这个内存缓冲区的大小默认是100M（io.sort.mb属性），当达到内存缓冲区大小的80%(io.sort.spill.percent)，也就是80MB的时候，会把内存中的数据
复制链接

扫一扫

专栏目录

woailyoo0000 CSDN认证博客专家 CSDN认证企业博客

码龄9年

57: 原创

5万+: 周排名

1万+: 总排名

60万+: 访问

: 等级

3463: 积分

91: 粉丝

274: 获赞

90: 评论

997: 收藏

私信

关注

热门文章

分类专栏

Kettle 5篇
数据分析 1篇
股市风云
SQL Server 4篇
QT 4篇
Oracle 23篇
shell 3篇
Linux 17篇
python 14篇
OGG 16篇
生活
NetWork 1篇
BigData 10篇
MySQL 3篇

最新评论

EXCLE2019绘制《深入浅出数据分析》Chapter4散点图
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数。
OGG-01232 Receive TCP Params Error: TCP/IP Error 104 (Connection Reset By Peer).
CSDN-Ada助手: TCP 和 UDP 有什么区别？它们各自有什么优缺点？
YARN多资源队列配置和使用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
MapReduce案例之WordCount源码
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
HDFS高可用群集HA搭建
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。