实验5 MapReduce初级编程实践(1)——编程实现文件合并和去重操作

一、实验目的

  1. 通过实验掌握基本的MapReduce编程方法;
  2. 掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。

二、实验平台

  1. 操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)
  2. Hadoop版本:3.1.3

三、实验内容

编程实现文件合并和去重操作

对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。

输入文件A的样例如下:

20150101 x
20150102 y
20150103 x
20150104 y
20150105 z
20150106 x

输入文件B的样例如下:

20150101 y
20150102 y
20150103 x
20150104 z
20150105 y

根据输入文件A和B合并得到的输出文件C的样例如下:

20150101 x
20150101 y
20150102 y
20150103 x
20150104 y
20150104 z
20150105 y
20150105 z
20150106 x

四、实验步骤

进入 Hadoop 安装目录,启动 hadoop:

cd /usr/local/hadoop
sbin/start-dfs.sh

新建文件夹,创建文件 A、B:

sudo mkdir MapReduce && cd MapReduce
sudo vim A
sudo vim B

编写 Java 文件实现 MapReduce:

sudo vim Merge.java

实现的 Java 代码如下:

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class Merge {
	/**
	 * @param args
	 * 对A,B两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C
	 */
	//重载map函数,直接将输入中的value复制到输出数据的key上
	public static class Map extends Mapper<Object, Text, Text, Text>{
		private static Text text = new Text();
		public void map(Object key, Text value, Context context) throws IOException,InterruptedException{
			text = value;
			context.write(text, new Text(""));
		}
	}
	
	//重载reduce函数,直接将输入中的key复制到输出数据的key上
	public static class Reduce extends Reducer<Text, Text, Text, Text>{
		public void reduce(Text key, Iterable<Text> values, Context context ) throws IOException,InterruptedException{
			context.write(key, new Text(""));
		}
	}
	
	public static void main(String[] args) throws Exception{
		// TODO Auto-generated method stub
		Configuration conf = new Configuration();
conf.set("fs.default.name","hdfs://localhost:9000");
		String[] otherArgs = new String[]{"input","output"}; /* 直接设置输入参数 */
		if (otherArgs.length != 2) {
			System.err.println("Usage: wordcount <in><out>");
			System.exit(2);
			}
		Job job = Job.getInstance(conf,"Merge and duplicate removal");
		job.setJarByClass(Merge.class);
		job.setMapperClass(Map.class);
		job.setCombinerClass(Reduce.class);
		job.setReducerClass(Reduce.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}

赋予用户相关权限:

sudo chown -R hadoop /usr/local/hadoop

添加编译所需要使用的 jar 包:

vim ~/.bashrc

添加下面一行到文件的最后:

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

使更改立即生效:

source ~/.bashrc

编译 Merge.java:

javac Merge.java

打包生成的 class 文件为 jar 包:

jar -cvf Merge.jar *.class

创建 Hadoop 主目录为 /user/hadoop 并创建 input 文件夹:

/usr/local/hadoop/bin/hdfs dfs -mkdir -p /user/hadoop
/usr/local/hadoop/bin/hdfs dfs -mkdir input

若 intput 已存在则删除原有文件:

/usr/local/hadoop/bin/hdfs dfs -rm input/*

上传 A、B 文件到 input 文件夹中:

/usr/local/hadoop/bin/hdfs dfs -put ./A input
/usr/local/hadoop/bin/hdfs dfs -put ./B input

使用之前确保 output 文件夹不存在:

/usr/local/hadoop/bin/hdfs dfs -rm -r output

使用我们刚生成的 Merge.jar 包:

/usr/local/hadoop/bin/hadoop jar Merge.jar Merge

查看输出结果:

/usr/local/hadoop/bin/hdfs dfs -cat output/*

输出如下:

hadoop@fzqs-Laptop:/usr/local/hadoop$ hdfs dfs -cat output/*
20170101 x	
20170101 y	
20170102 y	
20170103 x	
20170104 y	
20170104 z	
20170105 y	
20170105 z	
20170106 x
hadoop@fzqs-Laptop:/usr/local/hadoop$ 

此外,有想用 Python 写的可以参考我这篇博客:实验5 MapReduce初级编程实践(Python实现)

  • 107
    点赞
  • 517
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 70
    评论
### 回答1: MapReduce编程可以实现文件合并去重操作。具体步骤如下: 1. 首先,将需要合并去重文件上传到Hadoop分布式文件系统(HDFS)中。 2. 接着,编写MapReduce序,其中Mapper阶段的任务是将输入文件中的每一行作为key,value为空的键值对输出。Reducer阶段的任务是将相同的key合并,并去除重复的value。 3. 在MapReduce序中,需要设置输入路径和输出路径。输入路径为需要合并去重文件所在的HDFS目录,输出路径为合并去重后的文件所在的HDFS目录。 4. 运行MapReduce序,等待序执行完毕。 5. 最后,从输出路径中获取合并去重后的文件,即可完成文件合并去重操作。 需要注意的是,在MapReduce序中,需要设置合适的Reducer数量,以保证序的性能和效率。同时,还需要考虑到数据倾斜等问题,采取相应的优化措施,以提高序的运行效率。 ### 回答2: MapReduce是一种在数据处理领域广泛使用的编程模型。本文将讨论如何使用MapReduce实现文件合并去重操作文件合并: 假设有多个文件需要合并成一个文件。我们可以将每个文件映射到一个键值对中,其中键表示文件名,值表示文件内容。然后通过Reduce函数将所有值合并到一个文件中。 具体实现步骤如下: 1. 将每个文件映射到一个键值对中。键为文件名,值为文件内容。 2. 将所有键值对按照键进行排序。 3. 在Reduce函数中,将所有值合并到一个文件中。 具体代码如下: map(key, value): # 将每个文件映射到一个键值对中 emit(key, value) reduce(key, values): # 将所有值合并到一个文件中 with open(key, "wb") as outfile: for value in values: outfile.write(value) 文件去重: 假设有多个文件中的记录存在重复数据,需要将其去重。我们可以将每个记录映射到一个键值对中,其中键表示记录的内容,值为1。然后通过Reduce函数将所有值合并到一个文件中,去除重复数据。 具体实现步骤如下: 1. 将每个记录映射到一个键值对中。键为记录的内容,值为1。 2. 在Reduce函数中,将所有值累加起来,去除值大于1的记录。 具体代码如下: map(key, value): # 将每个记录映射到键值对中 emit(key, 1) reduce(key, values): # 去除重复记录 count = 0 for value in values: count += value if count == 1: emit(key, "") ### 回答3: MapReduce编程模型是处理大规模数据集的强大工具,可以帮助我们快速地完成文件合并去重操作文件合并去重操作是企业中日常工作中非常常见的操作,特别是对于需要处理海量数据的企业而言,这些操作尤为重要。 文件合并操作MapReduce编程模型的文件合并操作可以分为两个步骤——map和reduce。 1. Map操作: Map操作的核心是将文件中的每一行都作为一个key-value对,将每个key相同的value按顺序组合成一组,作为reduce操作输入。对于大规模的数据集,我们可以将数据分为多个不同的部分,每部分都运行一个独立的mapper,将处理结果输出到文件系统上。 2. Reduce操作: Reduce操作的主要目的是将经过Map操作后产生的key-value对按照某种规则聚合在一起,用于生成最终的输出文件。对于需要进行文件合并的场景,最终输出的文件是由多个经过合并后的小文件组成。 去重操作去重操作文件合并类似,也可以使用MapReduce编程模型,需要分为两个步骤——map和reduce。 1. Map操作: Map操作的核心是将重复的数据进行分组。对于map操作,我们可以将数据集中所有的value都设为一个常数,这样检测重复值只需要比较key即可。在map操作中,如果发现有相同的key-value对,就将其过滤掉,只传递其中一个给reduce操作。 2. Reduce操作: Reduce操作的主要功能是将来自不同mapper的处理结果聚合起来,生成最终的输出结果。在去重操作中,reduce操作会输出所有的不重复的数据。 总而言之,MapReduce编程模型可以帮助我们快速地完成文件合并去重操作,扩大了我们处理大规模数据集的能力,也有助于加快企业的数据处理效率。
评论 70
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Z.Q.Feng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值