【3.1】MapReduce框架原理之InputFormat数据输入

1. 切片与 MapTask并行度决定机制
  1. 问题引出
    MapTask的并行度决定 Map阶段的任务处理并发度,进而影响到整个Job的处理速度。
    在这里插入图片描述
  2. MapTask并行度决定机制
    在这里插入图片描述
    数据切片与MapTask并行度决定机制
2. Job 提交流程源码和切片源码详解
  1. Job提交流程
    在这里插入图片描述
    源码详解
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述

  2. FileInputFormat 切片源码解析(input.getSplits(job))
    在这里插入图片描述

3. FileInputFormat 切片机制
  1. 切片机制在这里插入图片描述
  2. 案例分析
    在这里插入图片描述
  3. FileInputFormat切片大小的参数配置在这里插入图片描述
4.CombineTextInputFormat 切片机制在这里插入图片描述
  1. 应用场景:
    在这里插入图片描述
  2. 虚拟存储切片最大值设置
    在这里插入图片描述
  3. CombineTextInputFormat切片机制
    生成切片过程包括:虚拟存储过程和切片过程二部分。
    在这里插入图片描述
    (1)虚拟存储过程
    在这里插入图片描述
    (2)切片过程:
    在这里插入图片描述
5. CombineTextInputFormat案例实操
  1. 需求
    将输入的大量小文件合并成一个切片统一处理 。
    在这里插入图片描述
  2. 实现过程
    在这里插入图片描述
6. FileInputFormat 实现类

在这里插入图片描述

  1. TextInputFormat
    在这里插入图片描述
  2. KeyValueTextInputFormat
  3. NLineInputFormat
    在这里插入图片描述
  4. 自定义InputFormat
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值