MapReduce 去除重复行，列

最新推荐文章于 2022-10-12 15:44:19 发布

原创

最新推荐文章于 2022-10-12 15:44:19 发布 · 1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#MapReduce 去除重复行，列

本文通过MapReduce代码示例，介绍如何在大数据处理中去除数据集中的重复行和列。

直接上代码
数据类型为：
在这里插入图片描述

package com.sheng.test;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;




/*
       KEYIN: 输入的key

        VALUEIN：输入的value

        KEYOUT:输出的key

       VALUEOUT：输出的value

       Context:Mapper的上下文
 * 	去除重复
 * 
 */
class WcMapper4 extends Mapper<LongWritable, Text, Text, IntWritable> {
		/*
		 * KeyIn:LongWritable 行的偏移量    ValueIn:Text 这一行的值 TextInputformat
		 * 
		 */

		@Override
		protected void map(Long