mapreduce shuffle

最新推荐文章于 2022-03-31 14:33:11 发布

crab_xyj

最新推荐文章于 2022-03-31 14:33:11 发布

阅读量194

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/wilbur_xieyj/article/details/89055364

版权

MapReduce的shuffle过程包括Map端的溢写、分区、排序和合并，以及Reduce端的复制和Merge Sort。Map端，当缓存达到溢写比例时，启动溢写线程进行分区、排序和合并。Reduce端，通过HTTP从Map任务获取数据，数据先存入内存缓冲区，当达到一定阈值时，进行内存到磁盘的合并排序。整个过程中，数据始终保持有序，有助于提高处理效率。

摘要由CSDN通过智能技术生成

一、 Map端shuffle
在这里插入图片描述

输入数据和执行Map任务通过自定义Map，将输入<key,value>转换成新的<key,value>并输出
写入缓存每个map任务都会分配一个缓存区（通过环形队列实现），默认100M，首先将map的输出写入缓存，当达到一定数量是会一次性批量写入磁盘，以减少磁盘IO操作
溢写（分区，排序，和并）因为缓存区大小有限，为不影Map结果的写入操作，每当缓存区大小达到溢写比例（spill.percent默认0.8）会启动溢写线程（spill），锁定这80MB(100M*0.8)的内存，执行溢写过程。剩下的20MB继续写入map task的输出结果。互不干涉！
溢写线程
1. 数据分区（partition）由于不同的<key,value>要交给不同的reduce任务处理，MapReduce提供Partitioner接口，它的作用就是根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力，如果用户自己对Partitioner有需求，可以通过重载Partitioner接口来实现自定义分区。
2. 排序完成分区之后，溢写线程将对每一个分区进行排序（sort）排序，排序是MapReduce模型的默认行为，

最低0.47元/天解锁文章

crab_xyj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mapreduce shuffle

一、 Map端shuffle输入数据和执行Map任务通过自定义Map，将输入<key,value>转换成新的<key,value>并输出写入缓存每个map任务都会分配一个缓存区（通过环形队列实现），默认100M，首先将map的输出写入缓存，当达到一定数量是会一次性批量写入磁盘，以减少磁盘IO操作溢写（分区，排序，和并）因为缓存区大小有限，为不影Map结果的写...
复制链接

扫一扫

专栏目录