直接上代码
数据类型为:

package com.sheng.test;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/*
KEYIN: 输入的key
VALUEIN:输入的value
KEYOUT:输出的key
VALUEOUT:输出的value
Context:Mapper的上下文
* 去除重复
*
*/
class WcMapper4 extends Mapper<LongWritable, Text, Text, IntWritable> {
/*
* KeyIn:LongWritable 行的偏移量 ValueIn:Text 这一行的值 TextInputformat
*
*/
@Override
protected void map(Long

本文通过MapReduce代码示例,介绍如何在大数据处理中去除数据集中的重复行和列。
最低0.47元/天 解锁文章
980

被折叠的 条评论
为什么被折叠?



