Hadoop之NLineInputFormat解析

Hadoop默认实现的InputFormat是FileInputFormat<K,V>,在FileInputFormat下有如下五个子类:CombineFileInputFormat<K,V>、TextInputFormat<K,V>、KeyValueTextInputFormat<K,V>、NLineInputFormat<K,V>和 SequenceFileInputForma<K,V>t。其中TextInputFormat默认的实现是TextInputFormat<K,V>。该输入格式的分片方式为:输入文本的每一行作为一个分片,其中该行的偏移量作为Key,该行的内容为Value。而这篇文章介绍到的是是FileInputFormat的另外一种子类——NLineInputFormat。

NLineInputFormat是Hadoop的一种非默认初始化的一种输入格式。不同与InputFormat默认初始化的LineInputFormat,这种分片方式是可以一次性按照指定的分片数进行InputSplit。所以在特定情况下,可以有效提升代码的运行效率。例如:数据文件为每行一个浮点数,总共一百行;指定Reducer个数为5个,分片行数为20。则表明在InputSplit时,文本的每20行作为一个split;分别输入每个Mapper处理的分片内容。因为Hadoop中Mapper的个数与split有关,又因为NLineInputSplit的Mapper计算方法为:Mapper = Splits = 文件行数/分片行数。所以在上面的例子中,总共划分为5个Mapper。下面贴出实现上面案例的源代码。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值