首先由InputFormat来进行切片,切片的大小默认等于一个块大小(blocksize),也可以自行设置,在切片时,会对文件逐个进行切片处理,而并非一起切片。
FileInputFormat切片步骤
- 程序先找到数据存储目录
- 开始便历目录下的文件
- 便历文件获取文件的大小,计算切片大小,会在每次切片以前用剩余大小除以块大小,如果小于1.1倍就不切
- 将切片信息写到规划文件中
- InputSplit只记录了切片的元数据信息
- 提交切片到YARN上,YARN根据切片来分配MapTask
首先由InputFormat来进行切片,切片的大小默认等于一个块大小(blocksize),也可以自行设置,在切片时,会对文件逐个进行切片处理,而并非一起切片。
FileInputFormat切片步骤