Hadoop_MapReduce_Combiner合并

最新推荐文章于 2022-10-06 09:24:53 发布

不爱研究的研究僧

最新推荐文章于 2022-10-06 09:24:53 发布

阅读量408

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce big data

本文链接：https://blog.csdn.net/weixin_43955488/article/details/122544310

版权

Hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1.自定义Combiner实现步骤

（a）自定义一个Combiner继承Reducer，重写Reduce方法

public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable outV = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }
     
        outV.set(sum);
     
        context.write(key,outV);
    }
}

（b）在Job驱动类中设置：

job.setCombinerClass(WordCountCombiner.class);

2.Combiner合并案例实操

1）需求

统计过程中对每一个MapTask的输出进行局部汇总，以减小网络传输量即采用Combiner功能。

（1）数据输入:txt文件

（2）期望输出数据

期望：Combine输入数据多，输出时经过合并，输出数据降低。

2）需求分析

3）案例实操-方案一

（1）增加一个WordCountCombiner类继承Reducer

内容其实与之前重写的Reduce方法一样

public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable outV = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }

        outV.set(sum);

        context.write(key,outV);
    }
}

（2）在WordcountDriver驱动类中指定Combiner

如果设置reduce任务数为0，就没有reduce方法，直接map方法就结束了，就没有combiner，因为combiner是在map和reduce之间。

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //1、获取job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2、设置jar包路径
        job.setJarByClass(WordCountDriver.class);

        //3、关联mapper和reducer
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //4、设置map输出的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //5、设置最终输出的kv类型（不一定是reducer的输出类型）
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //设置Combiner
        job.setCombinerClass(WordCountCombiner.class);

        //6、设置输入路径和输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\\code\\Hadoop\\input\\inputword"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\code\\Hadoop\\test\\output6"));

        //7、提交job
        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);
    }
}

4）案例实操-方案二

通常用这个方案

（1）将WordcountReducer作为Combiner在WordcountDriver驱动类中指定

设置的是自定义reduce的类，不是用自定义combiner类。

// 指定需要使用Combiner，以及用哪个类作为Combiner的逻辑
job.setCombinerClass(WordCountReducer.class);

不爱研究的研究僧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_MapReduce_Combiner合并

目录1.自定义Combiner实现步骤2.Combiner合并案例实操1）需求2）需求分析3）案例实操-方案一4）案例实操-方案二1.自定义Combiner实现步骤（a）自定义一个Combiner继承Reducer，重写Reduce方法public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable> { private IntWritabl.
复制链接

扫一扫