package bin;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class Deduplication {
//描述:数据去重程序
//数据的每一行作为一项输入,那么要知道map的功能以及reduce的功能
//map:提取出整个文件中的有用内容,即---键值对<key,value>---
//map提取出的原始的键值对,经过合并,形成同一个key的所有value集<key,[value1,value2,value3,...]>----它是作为reduce的输入的
//即,reduce的输入是一个特定类型的key,还有一个values集合。
//reduce针对每一个key处理这个values得到输出:一个<key,result>
/**
* map类
* @author xinxin
*
*/
public static class DedepMap extends Mapper<Object, Text, Text, Text>{
private static T
我的hadoop初学程序------简单数据去重--------Deduplication
最新推荐文章于 2023-11-23 14:23:51 发布