从源码分析MapReduce的数据切片原理

最新推荐文章于 2022-06-14 15:35:25 发布

desYang

最新推荐文章于 2022-06-14 15:35:25 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ygyblue2/article/details/81115646

版权

切片过程从JobSubmitter的writeSplits()开始

---step into writeNewSplits()

---step into getSplits() 开始获取新的切片

首先会选出Format默认最小值和配置文件中设置的切片最小值二者中最大的一个

getFormatMainSplitSize()默认返回值为1

getMinSplitSize()中，如果配置文件未设置切片大小的话，默认值为1

getMaxSplitSize()方法，如果配置文件中未设置切片最大值的的话默认为Long类型最大值

获取files文件集合

循环遍历files集合并获取路径和长度信息，此过程说明了在进行数据切分的时候是对每一个文件且依照长度进行切分的

切分前需要判断文件时候可以切割（如一些压缩文件切割后就无法使用）

获取blocksize = 33554432 计算blocksize/1024/1024 = 32M

这个结果在不同情况下可能不不同，因为此时我是在本地运行的，可能由于考虑到本地机器性能

所以默认分配blocksize为32M，如果在集群中运行的话会默认为128M

假设我们要存储一个65M的文件，首先 65/32 > 1.1会创建第一个切片

然后 (65-32) / 32 < 1.1 但是还有33M的数据没有存储，那么这33M会共同放在第二个切片中

所以当在本地运行时，一个65M的数据会分在两个切片存储，并把这个切片放在split集合中

接下来会重新进入循环来遍历切分下一个文件

为何是1.1？

切分完成后直接返回splits集合

再将集合转成数组（便于排序），长度为切片的个数

并对切片进行排序

最终返回数组长度（也是切片的个数，返回给maps，需要保证maptasks和maps的数量一致）

继续返回maps给jobsubmitter中的maps

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

desYang CSDN认证博客专家 CSDN认证企业博客

码龄7年

19: 原创

11万+: 周排名

160万+: 总排名

10万+: 访问

: 等级

905: 积分

16: 粉丝

35: 获赞

12: 评论

106: 收藏

私信

关注

分类专栏

最新评论

Flink 1.5版本集群自动重启报错原因
小码人生: 确实清理zookeeper下的flink对应的jobgeaph/checkpoint//running_job_registry的数据就起来了
Java实现对图像的水印处理
仰望星空的地底人: 会出现图片变色问题吗？
Flink 1.5版本集群自动重启报错原因
qq_35291452: 请问博主，知道怎么确认当前job对应的submittedJobGraph吗？
解决java.lang.NoClassDefFoundError: org/slf4j/event/LoggingEvent
AIMaynor: 膜拜技术大佬,来我博客指点江山吧
Writable，WritableComparable，WritableComparator区别
lq1205990816: 文中“Writable大致特点如下：”其实writable只涉及前两个特点紧凑/快速，4种特点是指rpc理想特点

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。