MapReduce的流程

        文件按照128M的大小进行分片,每个分片启动一个MapTask进行文件的处理。首先按照分区字段进行数据的分区,写入到环形缓冲区,环形缓冲区超过百分之80后会进行溢出操作,溢出的数据采用快排的方式进行排序,形成小文件。小文件采用归并排序的方法再次进行排序(当部分文件有序,归并排序效率较高)。然后对数据进行规约(类似提前进行reducer),形成临时文件,临时文件是按照分区文件进行区分的。

        Reducer阶段会自动拉取对应分区的数据,进行处理。(缓冲区的作用是为了平衡数据读和存的速度差异)拉取的数据会溢写到小文件,小文件经过归并排序合并成大文件,再进行分组,形成ReduceTask要执行的数据结构,进行数据的处理,最后输出文件

# 博学谷IT 技术支持

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值