项目实现：电商网站日志分析平台（三：etl数据清洗）

最新推荐文章于 2022-12-02 15:36:47 发布

@Heartworm

最新推荐文章于 2022-12-02 15:36:47 发布

阅读量983

点赞数 1

分类专栏：笔记文章标签： eclipse mapreduce 前端

本文链接：https://blog.csdn.net/weixin_57821489/article/details/121944765

版权

笔记专栏收录该内容

31 篇文章 1 订阅

订阅专栏

本篇为第三篇，剩余请移步主页查看
本篇需要eclipse

三．Etl数据清洗

（1）在eclipse连接Hadoop，通过xshell进行连接，并进行Hadoop可视化
在这里插入图片描述
（2）在eclipse创建Etl mapreduce项目

（3）在eclipse进行编写NginxEtlMapper 和NginxETLDiver这两个类

NginxEtlMapper类代码：

package ETL;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class nginxetlmapper extends Mapper<LongWritable,Text,Text,NullWritable>{
	private Text outputKey = new Text();
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
	String[] words = value.toString().split("");
	String path = words[6];
	outputKey.set(path);
	context.write(outputKey,NullWritable.get());
	}
}

NginxETLDiver类的代码：

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class NginxEtlDriver {
	public static void main(String[] args) {
		if(args.length<2) {
			System.out.println("请输入正确的参数");
			return;
		}
		String day = args[0];
		String hour = args[1];
		Configuration conf = new Configuration();
		try {
			Job job = Job .getInstance(conf);
			job.setJobName("nginx-etl");
			job.setJarByClass(NginxEtlDriver.class);
			job.setMapperClass(NginxEtlMapper.class);
			job.setMapOutputKeyClass(Text.class);
			job.setMapOutputValueClass(NullWritable.class);
			job.setNumReduceTasks(0);
			Path inputPath = new Path("/web/log/" + day + "/" + hour);
			FileInputFormat.addInputPath(job, inputPath);
			Path outputPath = new Path("/web/log/etl/" + day + "/" + hour);
			FileSystem.get(conf).delete(outputPath,true);
			FileOutputFormat.setOutputPath(job, outputPath);
			job.waitForCompletion(true);
			
		}catch(IOException e) {
			e.printStackTrace();
		}catch(InterruptedException e) {
			e.printStackTrace();
		}catch (ClassNotFoundException e) {
			e.printStackTrace();
		}
	}
}