逻辑切片的大小是怎么决定的?

在执行mapreuce任务的时候 进程会多一个叫做yarnchild
MRAppmaster:整个运行程序的管理者 管理的是整个程序的运行进度
yarnchild:maptask和reducetask运行的进程 1个yarnchild对应1个maptask任务或reducetask任务
maptask任务并行度:
任务数与逻辑切片的数量有关 一个逻辑切片的大小为block的大小
切片和块没有关系:有关是数据计算的逻辑划分,一个是数据存储的物理划分
如何知道的:
1.首先打开FileinputFormat源码 找到getSplits方法
2.找到splitSize这个属性 发现splitSize=computeSplitSize(blockSize, minSize, maxSize);
3.跟踪blockSize发现blockSize = file.getBlockSize(); 这个就是块的大小
4.跟踪minSize发现minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); 而getFormatMinSplitSize()方法返回的是1 ,getMinSplitSize(job)方法返回的是在map-site.xml中配置的"mapreduce.input.fileinputformat.split.minsize这个属性的值 默认为0
5.所以计算得出minsize为1
6.maxSize=context.getConfiguration().getLong(SPLIT_MAXSIZ, Long.MAX_VALUE); 这个返回long的最大值
7.splitSize=Math.Max(minSize,Math.Min(blockSize,maxSize));这个返回的是一个中间值
从什么的源码可以得出 如果想让逻辑切片的大小小于 block块的大小 就,maxSize的大小改的比blocksize小
如果想让逻辑切片的大小大于 block块的大小 就,minSize的大小改的比blocksize大
如果想要更改并行度就需要改block的大小
1)改配置文件 (map-site.xml)
mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.minsize
2)修改代码
单位是byte
FileInputFormat.setMaxInputSplitSize(job, 330);
FileInputFormat.setMinInputSplitSize(job, 330);

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值