我的hadoop初学程序------简单数据去重--------Deduplication

最新推荐文章于 2023-11-23 14:23:51 发布

xin15200793067

最新推荐文章于 2023-11-23 14:23:51 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/xin15200793067/article/details/12681523

版权

package bin;

import java.io.IOException;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;


public class Deduplication {

//描述：数据去重程序
//数据的每一行作为一项输入，那么要知道map的功能以及reduce的功能
//map:提取出整个文件中的有用内容，即---键值对<key,value>---
//map提取出的原始的键值对，经过合并，形成同一个key的所有value集<key,[value1,value2,value3,...]>----它是作为reduce的输入的
//即，reduce的输入是一个特定类型的key,还有一个values集合。
//reduce针对每一个key处理这个values得到输出：一个<key,result>
	
/**
 * 	map类
 * @author xinxin
 *
 */
	public static class DedepMap extends Mapper<Object, Text, Text, Text>{
		private static T