MapReduce的流程

weixin_43814165

已于 2022-11-07 16:38:43 修改

阅读量79

点赞数

文章标签： java servlet 前端

于 2022-10-08 09:11:27 首次发布

本文链接：https://blog.csdn.net/weixin_43814165/article/details/127202513

版权

文件按照128M的大小进行分片，每个分片启动一个MapTask进行文件的处理。首先按照分区字段进行数据的分区，写入到环形缓冲区，环形缓冲区超过百分之80后会进行溢出操作，溢出的数据采用快排的方式进行排序，形成小文件。小文件采用归并排序的方法再次进行排序（当部分文件有序，归并排序效率较高）。然后对数据进行规约(类似提前进行reducer)，形成临时文件，临时文件是按照分区文件进行区分的。

Reducer阶段会自动拉取对应分区的数据，进行处理。(缓冲区的作用是为了平衡数据读和存的速度差异)拉取的数据会溢写到小文件，小文件经过归并排序合并成大文件，再进行分组，形成ReduceTask要执行的数据结构，进行数据的处理，最后输出文件

# 博学谷IT 技术支持