MR实战：实现数据去重

xinxinzi_work

已于 2024-01-09 09:28:51 修改

阅读量931

点赞数 19

文章标签： mr

于 2024-01-09 09:27:03 首次发布

本文链接：https://blog.csdn.net/youxin2024520/article/details/135471116

版权

本文详细描述了使用HadoopMapReduce技术对含有重复数据的文本文件进行去重操作的过程，包括数据准备、自定义Mapper和Reducer类的实现，以及Driver类的配置和运行，旨在提升代码效率和可维护性。

摘要由CSDN通过智能技术生成

一、实战概述

在本次实战中，我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作，并将结果整合到一个文件中。以下是我们进行的一些优化步骤，以提高代码的效率和可维护性：

Hadoop服务启动： 在开始之前，确保成功启动Hadoop服务，以搭建分布式计算环境，为MapReduce任务提供必要的基础。
数据准备与上传： 在虚拟机上创建了file1.txt和file2.txt两个文本文件，并将它们上传到HDFS的/dedup/input目录。这确保了数据能够被MapReduce任务访问。
Mapper类优化： 我们创建了自定义Mapper类DeduplicateMapper，在Map阶段将TextInputFormat默认组件解析的键值对进行优化，将需要去重的数据作为key，value设为空。这种优化提高了Mapper的效率和清晰度。
Reducer类优化： 自定义Reducer类DeduplicateReducer直接复制输入的key作为输出的key，利用MapReduce默认机制对key进行自动去重。这一步骤的优化关注于简化代码同时保持高效性。
Driver类优化： 编写了MapReduce程序运行主类DeduplicateDriver，设置了工作任务的相关参数，包括输入路径、输出路径等。这确保了MapReduce任务能够在集群上正确执行，并且提升了代码的可配置性。
结果文件整合： 我们将结果输出到HDFS的/dedup/output目录，确保整合的文件能够方便地被访问和下载。
执行和验证： 最后，通过运行DeduplicateDriver类，我们能够查看并下载去重后的结果文件，从而确认去重操作成功完成。这一步骤有助于验证整个MapReduce任务的准确性和完整性。

通过以上优化，我们更加高效地运用Hadoop MapReduce进行大数据处理和去重操作，深化了对分布式计算的理解和应用能力。整个实战任务展示了如何利用MapReduce处理大规模数据，以及如何通过优化提升代码的可读性和性能。

二、提出任务

文件file1.txt本身包含重复数据，并且与file2.txt同样出现重复数据，现要求使用Hadoop大数据相关技术对以上两个文件进行去重操作，并最终将结果汇总到一个文件中。
编写MapReduce程序，在Map阶段采用Hadoop默认作业输入方式后，将key设置为需要去重的数据，而输出的value可以任意设置为空。
在Reduce阶段，不需要考虑每一个key有多少个value，可以直接将输入的key复制为输出的key，而输出的value可以任意设置为空，这样就会使用MapReduce默认机制对key（也就是文件中的每行内容）自动去重。

三、完成任务

（一）准备数据文件

启动hadoop服务

在这里插入图片描述

1、在虚拟机上创建文本文件

创建dedup目录，在其中创建两个文本文件 - file1.txt、file2.txt

在这里插入图片描述

2、上传文件到HDFS指定目录

创建/dedup/input目录，执行命令：hdfs dfs -mkdir -p /dedup/input

在这里插入图片描述

将两个文本文件 file1.txt与file2.txt，上传到HDFS的/dedup/input目录

在这里插入图片描述

（二）实现步骤

1、Map阶段实现

使用IntelliJ开发工具创建Maven项目Deduplicate，并且新创建net.youxin包，在该路径下编写自定义Mapper类DeduplicateMapper，主要用于读取数据集文件将TextInputFormat默认组件解析的类似<0，2022-11-1 a >键值对修改为<2022-11-1 a，null>。

（1）创建Maven项目

打开IDEA，创建Maven项目 - Deduplicate

在这里插入图片描述

单击【Create】按钮，得到初始化项目

（2）添加相关依赖

在pom.xml文件里添加hadoop和junit依赖

<dependencies>                                  
    <!--hadoop客户端-->                            
    <dependency>                                
        <groupId>org.apache.hadoop</groupId>    
        <artifactId>hadoop-client</artifactId>  
        <version>3.3.4</version>                
    </dependency>                               
    <!--单元测试框架-->                               
    <dependency>                                
        <groupId>junit</groupId>                
        <artifactId>junit</artifactId>          
        <version>4.13.2</version>               
    </dependency>                               
</dependencies>

刷新项目获得依赖

在这里插入图片描述

（3）创建日志属性文件

在resources目录里创建log4j.properties文件

在这里插入图片描述

log4j.rootLogger= ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/subjectavg.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（4）创建去重映射器类

创建net.youxin包，在包里创建DeduplicateMapper类

package net.youxin;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

/**
 * 功能：去重映射器类
 */

public class DeduplicateMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    private static Text field = new Text();
    // <0,2022-11-3 c> --> <2022-11-3 c,null>
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        field = value;
        context.write(field, NullWritable.get());
    }
}

2、Reduce阶段实现

根据Map阶段的输出结果形式，同样在net.hw.mr包下，自定义Reducer类DeduplicateReducer，主要用于接受Map阶段传递来的数据，根据Shuffle工作原理，键值key相同的数据就会被合并，因此输出数据就不会出现重复数据了。

创建去重归并器类

在net.youxin包里创建DeduplicateReducer类

package net.youxin;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * 功能：去重归并器类
 */

public class DeduplicateReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
    // <2022-11-3 c,null> <2022-11-4 d,null><2022-11-4 d,null>
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Context context)
            throws IOException, InterruptedException {
        context.write(key, NullWritable.get());
    }
}

3、Driver程序主类实现

编写MapReduce程序运行主类DeduplicateDriver，主要用于设置MapReduce工作任务的相关参数，对HDFS上/dedup/input目录下的源文件实现去重，并将结果输入到HDFS的/dedup/output目录下。

创建去重驱动器类

在这里插入图片描述

package net.youxin;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能：去重驱动器类
 */

public class DeduplicateDriver {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);

        // 设置作业启动类
        job.setJarByClass(DeduplicateDriver.class);

        // 设置Mapper类
        job.setMapperClass(DeduplicateMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(NullWritable.class);

        // 设置Reducer类
        job.setReducerClass(DeduplicateReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(NullWritable.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/dedup/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/dedup/output");

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录
        fs.delete(outputPath, true);

        // 给作业添加输入目录
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

4、运行去重驱动器类，查看结果

运行DeduplicateDriver类
下载结果文件 - part-r-00000
查看结果文件 - part-r-00000

四、拓展练习

形式：单独完成
题目：实现数据去重
要求：让学生自己按照步骤实现数据去重的功能，以此来巩固本节的学习内容。写一篇CSDN博客，记录操作过程。

（一）原始问题

某人今天访问很多不同的网站，移动或电信日志都会记录在案，有些网站访问次数多，有些网站访问次数少，此人，今天访问了多少个不同的网站？

（二）简单化处理

假如有如下一些IP地址，分别保存在三个文件里，如何去掉重复地址？
ips01.txt

192.168.234.21
192.168.234.22
192.168.234.21
192.168.234.21
192.168.234.23
192.168.234.21
192.168.234.21
192.168.234.21

ips02.txt

192.168.234.25
192.168.234.21
192.168.234.21
192.168.234.26
192.168.234.21
192.168.234.27
192.168.234.21
192.168.234.27
192.168.234.21

ips03.txt

192.168.234.29
192.168.234.21
192.168.234.26
192.168.234.21
192.168.234.25
192.168.234.25
192.168.234.21
192.168.234.22
192.168.234.21

xinxinzi_work

关注

19
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
MR实战：实现数据去重

在本次实战中，我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作，并将结果整合到一个文件中。在开始之前，确保成功启动Hadoop服务，以搭建分布式计算环境，为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件，并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。
复制链接

扫一扫