Hadoop_MapReduce_OutputFormat数据输出

不爱研究的研究僧

已于 2022-01-18 20:28:39 修改

阅读量614

点赞数 1

分类专栏： Hadoop 文章标签： mapreduce hadoop 大数据

于 2022-01-18 20:28:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43955488/article/details/122567789

版权

Hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

目录

1.OutputFormat接口实现类

2. 自定义OutputFormat案例实操

2）需求分析

（1）编写LogMapper类

（2）编写LogReducer类

（3）自定义一个LogOutputFormat类

（4）编写LogRecordWriter类

（5）编写LogDriver类

OutputFormat是Reduce之后的处理

1.OutputFormat接口实现类

2. 自定义OutputFormat案例实操

1）需求

过滤输入的log日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log。

（1）输入数据：txt文件

http://www.baidu.com
http://www.google.com
http://cn.bing.com
http://www.atguigu.com
http://www.sohu.com
http://www.sina.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sindsafa.com

（2）期望输出数据

2）需求分析

3）代码

（1）编写LogMapper类

/**
 * NullWritable作为占位
 */
public class LogMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //http://www.baidu.com
        //http://www.google.com
        //(http://www.google.com, NullWritable)
        //不做任何处理
        context.write(value, NullWritable.get());
    }
}

（2）编写LogReducer类

public class LogReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        //http://www.baidu.com
        //http://www.baidu.com
        //如果两个数据一样，直接输出会丢数据，只输出一条，因此用for循环防止丢数据
        for (NullWritable value : values) {
            context.write(key,NullWritable.get());
        }
    }
}

（3）自定义一个LogOutputFormat类

/**
 * FileOutputFormat<>，<>里面是reduce的输出k，v
 */
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {

    @Override
    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
        //创建一个自定义的RecordWriter返回
        LogRecordWriter lrw = new LogRecordWriter(job);
        return lrw;
    }
}

（4）编写LogRecordWriter类

public class LogRecordWriter extends RecordWriter<Text, NullWritable> {

    private FSDataOutputStream atguiguOut;
    private FSDataOutputStream otherOut;

    public LogRecordWriter(TaskAttemptContext job) {
        //创建两条流
        try {
            FileSystem fs = FileSystem.get(job.getConfiguration());

            atguiguOut = fs.create(new Path("D:\\code\\Hadoop\\atguigu.log"));
            otherOut = fs.create(new Path("D:\\code\\Hadoop\\other.log"));


        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void write(Text text, NullWritable nullWritable) throws IOException, InterruptedException {
        String log = text.toString();

        //根据一行的log数据是否包含atguigu,判断两条输出流输出的内容
        if(log.contains("atguigu")){
            atguiguOut.writeBytes(log + "\n");
        }else {
            otherOut.writeBytes(log + "\n");
        }
    }

    @Override
    public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        //关流
        IOUtils.closeStream(atguiguOut);
        IOUtils.closeStream(otherOut);
    }
}

（5）编写LogDriver类

public class LogDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance();

        job.setJarByClass(LogDriver.class);

        job.setMapperClass(LogMapper.class);
        job.setReducerClass(LogReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        //设置自定义的outputformat
        job.setOutputFormatClass(LogOutputFormat.class);

        FileInputFormat.setInputPaths(job,new Path("D:\\code\\Hadoop\\input\\inputoutputformat"));

        //虽然我们自定义了outputformat，但是因为我们的outputformat继承自fileoutputformat
        //而fileoutputformat要输出一个_SUCCESS文件，所以在这还得指定一个输出目录
        FileOutputFormat.setOutputPath(job,new Path("D:\\code\\Hadoop\\output8"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

不爱研究的研究僧

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_MapReduce_OutputFormat数据输出

目录1.OutputFormat接口实现类2.自定义OutputFormat案例实操1）需求2）需求分析3）代码（1）编写LogMapper类（2）编写LogReducer类（3）自定义一个LogOutputFormat类（4）编写LogRecordWriter类（5）编写LogDriver类OutputFormat是Reduce之后的处理1.OutputFormat接口实现类2.自定义OutputFormat案例实操1）需求过滤输入...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。