MR InputFormat 初解

包含的方法:

  InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

  RecordReader<K, V> getRecordReader(InputSplit split,
                                     JobConf job,
                                     Reporter reporter) throws IOException;

作业被提交到Jobclient之前,Client会调用作业InputFormat中的getSplits函数,并将得到的InputSplit序列化到文件中。这样,当作业提交到JobTracker端对作业初始化时,可直接读取该文件,解析出inputSplit,并创建map task。

 

getRecordReader对输入的inputSplit解析成若干个k/v对,并迭代获取k/v对调用map()函数处理。

 

以基于文件的inputFormat为例,基类FileInputFormat提供getSplits函数,派生类实现getRecodReader。

getSplits:

1、文件切分:

minsize: 配置参数mapred.min.split.size

maxsize:配置参数mapred.max.split.size

blocksize:hdfs中的块大小

最终确定splitsize = max{minsize,min{maxsize,blocksize}}

如果按设计的块大小,将一条记录切分,导致数据不完整如何处理?请继续看下面介绍。。。

2、host选择:

InputSplit只记录了分片的元数据信息,比如<所在文件、起始位置、长度、host列表>

hdfs上的文件以block为单位存放,可能遍布整个hadoop集群,故确定host列表不可能实现完全的本地性。

三个等级:本节点、同机架、不同机架

考虑到任务调度的效率,通常按照rack包含的数据量排序,再在rack内对node排序,最后取前N个node的host作为InputSplit的host列表,N为block副本数。在调度的时候,只需要将task调度给位于host列表中的节点即可。为了实现本地性,应尽量使inputSplit大小与block大小相同。

 

getRecordReader:

为了识别一条完整的记录,记录之间应该添加一些同步标示,如TextInputFormat,应添加换行符。

为了解决上述一条记录被切分的情况,RecordReader规定每个InputSplit的第一条不完整记录划给前一个InputSplit处理。

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值