shuffle功能及执行过程

第一部分:shuffle的功能:

  • 分区:决定当前key交由哪个reduce处理,默认按照key的hash值对reduce个数取余
  • 分组:将相同的key进行合并
  • 排序:按照key对每一组keyvalue进行排序(字典顺序)

第二部分:执行过程:

  • map端shuffle
    1.分区:对每一条keyvalue进行分区(打标签)
    2.排序:将相同分区的数据进行分区内排序
    3.当整个环形缓冲区达到阈值80%,开始溢写
    spill溢写:每一个map处理之后结果进入环形缓冲区(内存100M),将当分区排序之后的数据写入磁盘中,变成file文件,最终生成多个小文件
    4.merge:合并,将spill生成的多个小文件进行合并
  • reduce端shuffle
    1.reduce启动多个线程,通过网络到每台机器上拉取属于自己分区的数据
    2.merge合并:将每个Map task的结果中拉取的数据进行合并,并且进行排序(排序是对属于我的分区进行排序)
    3.分组:对相同key的value进行合并
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值