H(hadoop&code).Hadoop_MapReduce wordCount_outputformat

蒸气awa

已于 2022-08-07 15:27:15 修改

阅读量106

点赞数 1

分类专栏：大数据—Hadoop 文章标签： hadoop mapreduce 大数据

于 2022-08-04 00:26:50 首次发布

本文链接：https://blog.csdn.net/wq45255446/article/details/126151290

版权

大数据—Hadoop 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

该博客介绍了如何在Hadoop中创建自定义的输出格式`logOutPutFormat`，它继承自`FileOutputFormat`。通过`LogRecordWriter`类，将日志数据根据特定条件（如包含特定字符串）分别写入不同的文件，实现了日志的分流存储。在Driver中设置输出格式为`logOutPutFormat`，确保任务运行时使用这个定制的逻辑。

摘要由CSDN通过智能技术生成

(1)构建logOutPutFormat函数

import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class logOutPutFormat extends FileOutputFormat<Text, NullWritable> {

    @Override
    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {

        LogRecordWriter lrw = new LogRecordWriter(job);
        return lrw;
    }
}

（2）构建LogRecordWriter方法

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

public class LogRecordWriter extends RecordWriter<Text, NullWritable> {

    private FSDataOutputStream atguiguOut;
    private FSDataOutputStream otherOut;

    public LogRecordWriter(TaskAttemptContext job) {
        // 创建两条流
        try {
            FileSystem fs = FileSystem.get(job.getConfiguration());

            atguiguOut = fs.create(new Path("D:\\hadoop\\output\\outputFormat\\atguigu.log"));

            otherOut = fs.create(new Path("D:\\hadoop\\output\\outputFormat\\other.log"));

        } catch (IOException e) {
            e.printStackTrace();

        }

    }

    @Override
    public void write(Text key, NullWritable value) throws IOException, InterruptedException {

        String log = key.toString();

        //具体写;
        if(log.contains("atguigu")){
            atguiguOut.writeBytes(log + "\n");
        }else{
            otherOut.writeBytes(log + "\n");
        }
    }

    @Override
    public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {

        //关流
        IOUtils.closeStream(atguiguOut);
        IOUtils.closeStream(otherOut);

    }
}

（3）在driver中添加

        job.setOutputFormatClass(logOutPutFormat.class);

参考尚硅谷Hadoop视频！原视频连接：尚硅谷【官网】谷粉与老学员力挺的Java培训|大数据培训|前端培训|UI设计培训

蒸气awa

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
H(hadoop&code).Hadoop_MapReduce wordCount_outputformat

Hadoop_MapReduce format格式化输出
复制链接

扫一扫

专栏目录