shuffle机制（文字加图解）

最新推荐文章于 2022-11-15 22:20:23 发布

@Heartworm

最新推荐文章于 2022-11-15 22:20:23 发布

阅读量338

点赞数 3

分类专栏：笔记文章标签： mysql 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57821489/article/details/121615109

版权

笔记专栏收录该内容

31 篇文章 1 订阅

订阅专栏

1）基础知识：

Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（即将map输出作为输入传给reducer）称为shuffle。

shuffle阶段是从map方法输出数据以后开始到reduce方法输入数据之前结束。

分区的数量 = ReduceTask数量 = 结果文件的数量
在这里插入图片描述
2）流程详解

上面的流程是整个mapreduce最全工作流程，但是shuffle过程只是从第7步开始到第16步结束，具体shuffle过程详解，如下：

1）maptask收集我们的map()方法输出的kv对，放到内存缓冲区中

2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

3）多个溢出文件会被合并成大的溢出文件

4）在溢出过程中，及合并的过程中，都要调用partitoner进行分组和针对key进行排序

5）reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据

6）reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）

7）合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）

3）注意
Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整，参数：io.sort.mb 默认100M
Combiner合并

1）combiner是MR程序中Mapper和Reducer之外的一种组件

2）combiner组件的父类就是Reducer

3）combiner和reducer的区别在于运行的位置：

Combiner是在每一个maptask所在的节点运行

Reducer是接收全局所有Mapper的输出结果；

4）combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量

6）combiner能够应用的前提是不能影响最终的业务逻辑，而且，combiner的输出kv应该跟reducer的输入kv类型要对应起来

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
shuffle机制（文字加图解）

1）基础知识：Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（即将map输出作为输入传给reducer）称为shuffle。shuffle阶段是从map方法输出数据以后开始到reduce方法输入数据之前结束。分区的数量 = ReduceTask数量 = 结果文件的数量2）流程详解上面的流程是整个mapreduce最全工作流程，但是shuffle过程只是从第7步开始到第16步结束，具体shuffle过程详解，如下：1）maptask收集我们的map()方法输
复制链接

扫一扫

专栏目录

@Heartworm CSDN认证博客专家 CSDN认证企业博客

码龄3年

46: 原创

9万+: 周排名

225万+: 总排名

10万+: 访问

: 等级

700: 积分

294: 粉丝

191: 获赞

41: 评论

472: 收藏

私信

关注

热门文章

分类专栏

笔记 31篇

最新评论

MySQL--数据库的基本操作指令
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
李峋同款爱心python实现
2301_78862132: 哥哥，pycharm运行需要那个编译器啊，为啥我的不出来呀
李峋同款爱心python实现
lsmdasnan: 博主，你会卡吗，我运行出来心好卡
李峋同款爱心python实现
Keisen.: 请问pycharm可以运行么
李峋同款爱心python实现
m0_73321334: DEPRECATION WARNING: The system version of Tk is deprecated and may be removed in a future release. Please don't rely on it. Set TK_SILENCE_DEPRECATION=1 to suppress this warning.遇到这个问题，求大佬帮助

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

@Heartworm 你的鼓励就是我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。