Hadoop_MapReduce_Shuffle机制

最新推荐文章于 2023-07-16 10:50:35 发布

不爱研究的研究僧

最新推荐文章于 2023-07-16 10:50:35 发布

阅读量502

点赞数

分类专栏： Hadoop 文章标签： mapreduce hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43955488/article/details/122527557

版权

Hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。

理解：

1.Map方法得<k,v>数据，进行分区标记后存入环形缓冲区，图中环形缓冲区左边箭头是索引写入，右边箭头是数据写入，当环形缓冲区的容量达到80%时开启一个后台线程将内容溢出（spill）到磁盘，map输出继续写到缓冲区。80%后反向是从索引方向和数据方向最后写入位置的20%中间为起点，反向写索引和数据。如果到100%，要等溢写结束才能写数据，到80%的话可以一边写入环形缓冲区，一边溢出写入磁盘。

2.溢出到磁盘前还有其他操作，对每个分区进行快速排序，对key的索引排，按照字典顺序排。如果有Combiner函数，则可以进行分区合并，例：<at,1>,<at,1>合并变为<at,2>，减小了数据量。再进行各分区归并排序，如果有Combiner函数，可以再进行分区合并

3.因为达到80%就溢出，因此可能有多次溢出，注意环形缓冲区（默认100M）包括数据和索引，对于128M数据，不止两次溢写，因为还有索引。

4.接下来的压缩使得数据量减小，效率提高。压缩后的数据写入磁盘，等待Reduce端拉取，并不是自己主动。

5.Reduce端从几个Map方法输出数据进行拉取（远程拷贝），先放入内存，如果内存不够溢出到磁盘。内存和磁盘中的数据一起进行归并排序，进入Reduce方法。

不爱研究的研究僧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_MapReduce_Shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。理解：1.Map方法得<k,v>数据，进行分区标记后存入环形缓冲区，图中环形缓冲区左边箭头是索引写入，右边箭头是数据写入，当环形缓冲区的容量达到80%时开启一个后台线程将内容溢出（spill）到磁盘，map输出继续写到缓冲区。80%后反向是从索引方向和数据方向最后写入位置的20%中间为起点，反向写索引和数据。如果到100%，要等溢写结束才能写数据，到80%的话可以一边写入环形缓冲区，一边溢出写入磁盘。2.溢出
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。