从源码分析MapReduce的数据切片原理

切片过程从JobSubmitter的writeSplits()开始

---step into writeNewSplits()

---step into getSplits() 开始获取新的切片

首先会选出Format默认最小值和配置文件中设置的切片最小值  二者中最大的一个

getFormatMainSplitSize()默认返回值为1 

getMinSplitSize()中,如果配置文件未设置切片大小的话,默认值为1

getMaxSplitSize()方法,如果配置文件中未设置切片最大值的的话默认为Long类型最大值

获取files文件集合

循环遍历files集合并获取路径和长度信息,此过程说明了在进行数据切分的时候是对每一个文件且依照长度进行切分的

切分前需要判断文件时候可以切割(如一些压缩文件切割后就无法使用)

获取blocksize = 33554432  计算blocksize/1024/1024 = 32M

这个结果在不同情况下可能不不同,因为此时我是在本地运行的,可能由于考虑到本地机器性能

所以默认分配blocksize为32M,如果在集群中运行的话会默认为128M

假设我们要存储一个65M的文件,首先 65/32 > 1.1会创建第一个切片

然后 (65-32) / 32 < 1.1 但是还有33M的数据没有存储,那么这33M会共同放在第二个切片中

所以当在本地运行时,一个65M的数据会分在两个切片存储,并把这个切片放在split集合中

接下来会重新进入循环来遍历切分下一个 文件

为何是1.1? 

切分完成后直接返回splits集合

再将集合转成数组(便于排序),长度为切片的个数

并对切片进行排序

最终返回数组长度(也是切片的个数,返回给maps,需要保证maptasks和maps的数量一致)

继续返回maps给jobsubmitter中的maps

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值