MapReduce 常见的编程场景之自定义 InputFormat--小文件合并

最新推荐文章于 2023-01-27 14:54:45 发布

.道不虚行

最新推荐文章于 2023-01-27 14:54:45 发布

阅读量204

点赞数

分类专栏： hadoop 文章标签： hadoop 大数据 mapreduce

本文链接：https://blog.csdn.net/weixin_44387652/article/details/114069254

版权

MapReduce 常见的编程场景之自定义 InputFormat--小文件合并

1、需求
2、分析
3、实现
4、学习内容

1、需求

无论 HDFS 还是 MapReduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。

2、分析

小文件的优化无非以下几种方式：
1、在数据采集的时候，就将小文件或小批数据合成大文件再上传 HDFS；
2、在业务处理之前，在 HDFS 上使用 MapReduce 程序对小文件进行合并；
3、在 MapReduce 处理时，可采用 CombineFileInputFormat 提高效率；

3、实现

在此，我们采用第二种方式使用 MapReduce 程序来对小文件进行合并。
注意：并不是说编写一个 MR 程序来实现对这小文件的计算，只是做合并。

核心实现思路：
1、编写自定义的 InputFormat；
2、改写 RecordReader，实现一次 maptask 读取一个小文件的完整内容封装了一个 KV 对；
3、在 Driver 类中一定要设置使用自定义的 InputFormat：

job.setInputFormatClass(WholeFileInputFormat.class)

看具体实现：
第一步，编写自定义的 InputFormat：

package com.zc.hadoop.mr.student.ipf;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import java.io.IOException;

/**
 * @作者： zc
 * @时间： 2021/2/25 11:30
 * @描述： 1、编写自定义的 InputFormat
 *          2、改写 RecordReader，实现一次 maptask 读取一个小文件的完整内容封装了一个 KV 对
 */
public class WholeFileInputFormat extends FileInputFormat<NullWritable, Text> {
   

    // 设置每个小文件不可分片,保证一个小文件生成一个 key-value 键值对
    @Override
    protected boolean isSplitable(JobContext context, Path file) {
   
        return false;
    }
    @Override
    public RecordReader<NullWritable, Text> createRecordReader(InputSplit split,
                                                               TaskAttemptContext context) throws IOException, InterruptedException {
   
        WholeFileRecordReader reader = new WholeFileRecordReader();
        reader.initialize(split, context);
        return reader;
    }
}

第二步，编写自定义的 RecordReader：

package com.zc.hadoop.mr.student.ipf;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop