我的hadoop初学程序------简单数据去重--------Deduplication

package bin;

import java.io.IOException;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;


public class Deduplication {

//描述:数据去重程序
//数据的每一行作为一项输入,那么要知道map的功能以及reduce的功能
//map:提取出整个文件中的有用内容,即---键值对<key,value>---
//map提取出的原始的键值对,经过合并,形成同一个key的所有value集<key,[value1,value2,value3,...]>----它是作为reduce的输入的
//即,reduce的输入是一个特定类型的key,还有一个values集合。
//reduce针对每一个key处理这个values得到输出:一个<key,result>
	
/**
 * 	map类
 * @author xinxin
 *
 */
	public static class DedepMap extends Mapper<Object, Text, Text, Text>{
		private static T
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值