1. 切片与 MapTask并行度决定机制
- 问题引出
MapTask的并行度决定 Map阶段的任务处理并发度,进而影响到整个Job的处理速度。
- MapTask并行度决定机制
数据切片与MapTask并行度决定机制
2. Job 提交流程源码和切片源码详解
-
Job提交流程
源码详解
-
FileInputFormat 切片源码解析(input.getSplits(job))
3. FileInputFormat 切片机制
- 切片机制
- 案例分析
- FileInputFormat切片大小的参数配置
4.CombineTextInputFormat 切片机制
- 应用场景:
- 虚拟存储切片最大值设置
- CombineTextInputFormat切片机制
生成切片过程包括:虚拟存储过程和切片过程二部分。
(1)虚拟存储过程
(2)切片过程:
5. CombineTextInputFormat案例实操
- 需求
将输入的大量小文件合并成一个切片统一处理 。
- 实现过程
6. FileInputFormat 实现类
- TextInputFormat
- KeyValueTextInputFormat
- NLineInputFormat
- 自定义InputFormat