包含的方法:
InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
RecordReader<K, V> getRecordReader(InputSplit split,
JobConf job,
Reporter reporter) throws IOException;
作业被提交到Jobclient之前,Client会调用作业InputFormat中的getSplits函数,并将得到的InputSplit序列化到文件中。这样,当作业提交到JobTracker端对作业初始化时,可直接读取该文件,解析出inputSplit,并创建map task。
getRecordReader对输入的inputSplit解析成若干个k/v对,并迭代获取k/v对调用map()函数处理。
以基于文件的inputFormat为例,基类FileInputFormat提供getSplits函数,派生类实现getRecodReader。
getSplits:
1、文件切分:
minsize: 配置参数mapred.min.split.size
maxsize:配置参数mapred.max.split.size
blocksize:hdfs中的块大小
最终确定splitsize = max{minsize,min{maxsize,blocksize}}
如果按设计的块大小,将一条记录切分,导致数据不完整如何处理?请继续看下面介绍。。。
2、host选择:
InputSplit只记录了分片的元数据信息,比如<所在文件、起始位置、长度、host列表>
hdfs上的文件以block为单位存放,可能遍布整个hadoop集群,故确定host列表不可能实现完全的本地性。
三个等级:本节点、同机架、不同机架
考虑到任务调度的效率,通常按照rack包含的数据量排序,再在rack内对node排序,最后取前N个node的host作为InputSplit的host列表,N为block副本数。在调度的时候,只需要将task调度给位于host列表中的节点即可。为了实现本地性,应尽量使inputSplit大小与block大小相同。
getRecordReader:
为了识别一条完整的记录,记录之间应该添加一些同步标示,如TextInputFormat,应添加换行符。
为了解决上述一条记录被切分的情况,RecordReader规定每个InputSplit的第一条不完整记录划给前一个InputSplit处理。