Hadoop
文章平均质量分 71
WuDevin
这个作者很懒,什么都没留下…
展开
-
InputFormat的个人理解
概述InputFormat是MapReduce中的第一个重要阶段,它主要做了两部分工作,第一步过滤inputPath, 生成inputSplit,写入文件.staging/job.split,每个inputsplit对应一个map。第二步,构建recordReader, 生成InputFormatUsage: 验证job的inputPath里面的文件。 划分输入文件,生成逻辑的inputSplits原创 2016-06-27 22:13:34 · 925 阅读 · 0 评论 -
OutputFormat的自我理解
主要接口1, getRecordWriter(FileSystem ignored, JobConf job, String name, Progressable progress) 这个方法的主要作用是返回一个RecordWriter,把context.write()的键值对写到文件里面。progress作为返回写文件进度的一个回调机制。 2, checkOutputSpecs(FileSys原创 2016-06-28 22:34:04 · 2451 阅读 · 0 评论 -
Shuffle阶段的自我理解
Shuffle阶段的概述Shuffle是连接map,reduce两个管道的衔接套。Map的输出经过partition写到内存的buffer里面,当内存满了的时候,会排序写到零时文件,这样当mapTask整个运行完之后,会产生一大堆零时文件,shuffle要把它们merge在一起。(会调用combine函数) Reduce端通过TaskTracker监听到自己的需要数据的哪个map运行完了,就回去p原创 2016-06-29 23:23:13 · 2305 阅读 · 0 评论