MapReduce的shuffle过程

最新推荐文章于 2024-06-17 17:01:24 发布

初心江湖路

最新推荐文章于 2024-06-17 17:01:24 发布

阅读量1.1k

点赞数

分类专栏：大数据 Hadoop 文章标签： MapReduce shuffle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43878293/article/details/104631790

版权

本文详细介绍了MapReduce的shuffle过程，包括Map端的缓冲区写出、溢写排序、合并，以及Reduce端的数据拷贝、合并和形成输入。shuffle涉及数据拉取、磁盘IO和排序，是优化的重要方向。Map端数据按partition和key排序并可能应用combiner，多个溢写文件最终合并为一个。Reduce端通过Fetcher线程拉取数据，根据内存和磁盘情况合并，并在内存中使用优先级队列保持key有序，最终形成reduce任务的输入。

摘要由CSDN通过智能技术生成

shuffle是昂贵操作，因为shuffle操作不仅涉及到数据的拉取、溢写磁盘的IO操作还涉及排序合并等操作，如果能让shuffle的成本尽量降低也是一大优化的方向。本篇文章对应Hadoop2.6.5，只对应流程，具体细节，可以研究MapTask/ReduceTask/Shuffle等源码。

shuffle过程

一、Map端

1、起始点 - map任务已产生结果将写出

这一阶段可以称作缓冲区写出。在map任务完成后会将结果写入缓冲区，缓冲区的大小设置好了就是固定的，当写出的数据长度超过缓冲区剩余空间大小时，已写入缓冲区的结果将被溢写到磁盘上。

2、溢写过程 - 对应 sortAndSpill

每次溢写都产生一个溢写文件，写出之前对缓冲区数据进行排序（排序方式有两个：堆排序、快速排序，可以通过 “map.sort.class” 设置，默认是快速排序，排序规则是先按 partition 排再按 key 排）。

可知，写出时同一 partiton 的数据 append 在一起。而且，如果设置了 combiner , 会对相同 key 进行 combine 操作，也就是 map 端 reduce。写出之后产生一个对应溢出文件的索引文件。

也就是说对于每一次溢出操作，都产生一个文件，这个文件中的数据是按分区和键排好序的。对于一个map任务

最低0.47元/天解锁文章

初心江湖路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的shuffle过程

shuffle是昂贵操作，因为shuffle操作不仅涉及到数据的拉取、溢写磁盘的IO操作还涉及排序合并等操作，如果能让shuffle的成本尽量降低也是一大优化的方向。本篇文章对应Hadoop2.6.5，只对应流程，具体细节，可以研究MapTask/ReduceTask/Shuffle等源码。shuffle过程一、Map端1、起始点 - map任务已产生结果将写出这一阶段可以称作缓冲区写出。...
复制链接

扫一扫

专栏目录

初心江湖路 CSDN认证博客专家 CSDN认证企业博客

码龄6年

101: 原创

24万+: 周排名

157万+: 总排名

17万+: 访问

: 等级

2297: 积分

46: 粉丝

78: 获赞

9: 评论

359: 收藏

私信

关注

热门文章

分类专栏

Flink 3篇
Kafka 8篇
Hive 6篇
Redis 2篇
GC 4篇
HBase 1篇
Structured Streaming 2篇
数据仓库 4篇
Hadoop 4篇
MySQL 2篇
HDFS 5篇
Spark Streaming 1篇
Spark SQL 1篇
大数据 29篇
Spark 23篇
数据结构 5篇
数据库 7篇
Yarn 3篇
设计模式 1篇
Java 17篇
算法 12篇
锁 2篇

最新评论

CAS原理及其优缺点、总线锁、缓存锁
蓝兔猪: 我认为在java中CAS并不存在ABA问题，因为CAS整个过程本身就是原子性，只是将硬件CAS思想用到了其他地方，出现了ABA问题。
为什么会有接口和抽象类
慕然回首，已学到深处: 非常好，下次继续
如何设置Spark Executor Memory的大小
weixin_47177883: spark.executor.memoryOverhead 这个参数并不是可使用的堆外内存吧
Flink的计算方式
好好学习/天天向上: 讲的不赖，我非常认同分治这一点。一个任务拆分成多个子任务，然后将子任务结果汇总到一起
yarn application常用命令及显示示例
涤生大数据: 我在大佬的评论区瑟瑟发抖,有机会希望能和博主一起交流

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。