大数据实战第二课-Hadoop离线项目之数据清洗

最新推荐文章于 2022-03-16 17:22:54 发布

zhikanjiani

最新推荐文章于 2022-03-16 17:22:54 发布

阅读量1.3k

点赞数

分类专栏： Hadoop高级班课程

本文链接：https://blog.csdn.net/zhikanjiani/article/details/89284488

版权

Hadoop高级班课程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

4.1、CDN日志数据准备
4.2、日志解析功能开发
4.3、数据清洗ETL功能本地测试
4.4、数据清洗功能服务器测试
4.5、使用Hive完成最基本的统计分析功能

链接：https://pan.baidu.com/s/1NhOk9KuSfW_PeHu3HX0hyQ 
提取码：ac6z 
课程来源：若泽数据

一、上次课回顾

https://blog.csdn.net/zhikanjiani/article/details/89283500

二、企业级大数据项目开发流程

一、开发流程：
项目调研：是以业务为导向还是技术为导向，以业务为导向；
产品经理、熟悉业务的项目经理

需求分析：做什么产品做成什么样？
分为显示需求和隐式需求
用户提出来的：显示
隐示需求：不懂的客户要为客户提供方案
甘特图

方案设计：
1）概要设计：明确系统有哪些模块、模块下的功能点
2）详设：本套产品使用的技术，每个功能点涉及的表（表中字段、字段类型），有哪些类，类中有哪些方法.
eg：对日外包，详设，码农看得懂日语填空就行.
3）系统设计（设计文档代码化）决定了系统的容错、扩展、监控告警、能否定制化.

功能开发：
开发
测试：单元测试（测试边界值） CICD 项目上线前所有的单元测试都需要跑通.

测试：测试人员测试
功能
联调：一个项目会涉及很多其他团队的项目，比如别人提供的一些接口及服务.
性能：压力测试
用户测试：试用（像我们erp系统功能开发完成后、测试人员测试完后交由提报人进行测试）
部署上线：
1）试运行（观察新老系统差别） DIFF 稳定性
2）正式上线灰度测试
3）容器化：概念：测试生产上加一台机器，要各种配置，很麻烦并且容易出错。
为什么提倡容器？开箱即用，解决人为产生的问题
4）新功能开发后期运维保障 bug修复
PK哥公司作业跑在k8s上，作资源隔离，Docker、K8s、Docker FIle开发人员都需要会，运维只要会用用就可以了.

三、企业级大数据应用分类

大数据应用分类：
数据分析：
1）自研：基于开源框架进行二次开发，好处：数据都在自己这，方便后期构建用户画像，进行精准营销.
2）商业：使用阿里云的一套平台

搜索、爬虫：ELK：
机器学习、深度学习、人工智能（要求太高了）

精准营销就是一个用户标签？
离线：批处理
实时：流处理
目的+意义：表面上毫无关联的数据通过生层次挖掘进行分析产生一些有价值的数据。

四、基于Maven构建大数据开发项目

IDEA创建maven项目：

1）、选择Maven，Project SDK选择jdk1.8，选中Create from archetype，再选中org.apache.maven.archetypes:maven-archetype-quickstart；
在这里插入图片描述
2）、输入GroupId，ArtificatId，Version；

3）、再输入自己的maven家目录、maven配置文件、maven本地仓库. ==> import changes自动导包加载 ==> 删除

2）、添加hadoop的依赖

Hadoop版本是否一定要与生产Hadoop版本一致么？
比如生产上是cdh版本，测试的时候使用的是Apache Hadoop，所以选择hadoop版本选择生产近似的版本就可以了。
maven工程打包的两种方式：
1）胖包：（所有的东西全打一个jar包）
2）瘦包：（仅仅只打包所需要的开发的代码）
  <properties>
    <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
  </properties>
 
cdh版本默认仓库里是没有的，需要添加一个仓库
1、 <!--添加cdh的仓库-->
  <repositories>
    <repository>
      <id>cloudera</id>
      <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
    </repository>
  </repositories>
  
2、  <!--添加Hadoop的依赖-->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
      </dependency>

在这个目录下	$MAVEN_HOME/conf/setting.xml下添加这段话，
<自定义本地仓库地址>
<localRepository>D:\MAVEN\maven_repository</localRepository>

为什么要添加Hadoop的依赖？为了以后重构需要
为方便以后版本升级，hadoop.version都用变量来写${hadoop.version}.

需要查一下Maven配置的是否正确：file --> settings --> Build, Execution ,Deployment --> Build Tools --> Maven.
在这里插入图片描述

4.2、日志解析功能开发

在这里插入图片描述
新建两个包：在com.ruozedata.hadoop下新建utils包；右键new，选择Package，包名叫com.ruozedata.hadoop.mapreduce

1、在utils包下新建一个Java class名字为LogUtils:代码如下:

package com.ruozedata.hadoop.utils;

public class LogUtils {


    /*日志文件内容解析，对内容字段进行处理
     * 按照\t进行分割
     */
    public String parse(String log){
        String result = "baidu\tCN\tE\t[17/Jul/2018:17:07:50 +0800]\t223.104.18.110\tv2.go2yd.com\thttp://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2226fd3f4c.mp4_bd.mp4\t17168\t";

        String[] splits =  log.split("\t");		//取出字段
        String cdn = splits[0];				//index是从0开始的
        String region = splits[1];
        String level = splits[2];
        String time = splits[3];
//       String time = timeStr.substring(1,timeStr.length()-7);				//时间转换

        String ip = splits[4];
        String domain = splits[5];
        String url = splits[6];
        String traffic = splits[7];			//流量

        System.out.println(cdn);
        System.out.println(region);
        System.out.println(level);
        System.out.println(time);
        System.out.println(ip);
        System.out.println(domain);
        System.out.println(url);
        System.out.println(traffic);

        return result;
    }
}

2、在Java测试包下直接新建一个TestLogUtils.java，代码如下：

package com.ruozedata.hadoop;

import com.ruozedata.hadoop.utils.LogUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class LogUtilsTest {

    private LogUtils utils;
    @Test
    public void testLogParse(){
        String log = "baidu\tCN\tE\t[17/Jul/2018:17:07:50 +0800]\t223.104.18.110\tv2.go2yd.com\thttp://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2226fd3f4c.mp4_bd.mp4\t17168\t";
        String result =  utils.parse(log);
        System.out.println(result);
    }
    @Before
    public void setUp(){
        utils = new LogUtils();
    }
    @After
    public void tearDown(){
        utils = null;
    }
}

3、运行TestLogUtils得出如下结果：

D:\java\JDK-8u\bin\java...
Connected to the target VM, address: '127.0.0.1:60792', transport: 'socket'
baidu
CN
E
[17/Jul/2018:17:07:50 +0800]
223.104.18.110
v2.go2yd.com
http://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2226fd3f4c.mp4_bd.mp4
17168
baidu	CN	E	[17/Jul/2018:17:07:50 +0800]	223.104.18.110	v2.go2yd.com	http://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2226fd3f4c.mp4_bd.mp4	17168	
Disconnected from the target VM, address: '127.0.0.1:60792', transport: 'socket'

3.1、修改LogUtils.java，解析时间：

String timeStr = splits[3];
String time = timeStr.substring(1,timeStr.length()-7);		

运行TestLogUtils.java，输出结果：
17/Jul/2018:17:07:50

3.1.1、再次对时间进行解析（转换下格式）

package com.ruozedata.hadoop.utils;

import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Locale;

public class LogUtils {


    /*日志文件内容解析，对内容字段进行处理
     * 按照\t进行分割
     */
    public String parse(String log) {
        DateFormat sourceFormat = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss", Locale.ENGLISH);
        DateFormat targetFormat = new SimpleDateFormat("yyyyMMddHHmmss");
        String result = "baidu\tCN\tE\t[17/Jul/2018:17:07:50 +0800]\t223.104.18.110\tv2.go2yd.com\thttp://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2226fd3f4c.mp4_bd.mp4\t17168\t";


        try {
            String[] splits = log.split("\t");        //取出字段
            String cdn = splits[0];                //index是从0开始的
            String region = splits[1];
            String level = splits[2];
            String timeStr = splits[3];
            String time = timeStr.substring(1, timeStr.length() - 7);                //时间转换
            time = targetFormat.format(sourceFormat.parse(time));

            String ip = splits[4];
            String domain = splits[5];
            String url = splits[6];
            String traffic = splits[7];            //流量

            System.out.println(cdn);
            System.out.println(region);
            System.out.println(level);
            System.out.println(time);
            System.out.println(ip);
            System.out.println(domain);
            System.out.println(url);
            System.out.println(traffic);


        } catch (ParseException e) {
            e.printStackTrace();
        }

        return result;
    }
}

对时间的打印：20180717170750

此处主要修改的代码如下：

代码新增需要引入的包：
import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Locale;
新增代码：
 DateFormat sourceFormat = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss", Locale.ENGLISH);
 DateFormat targetFormat = new SimpleDateFormat("yyyyMMddHHmmss");

参考博客：https://blog.csdn.net/KingWTD/article/details/48089111

3.1.2：解析出来的日志 ==> external table(日志给外部表使用)

–>Hive上创建表取决于日志的分割符：

再次对代码进行更新：

//            System.out.println(cdn);
//            System.out.println(region);
//            System.out.println(level);
//            System.out.println(time);
//            System.out.println(ip);
//            System.out.println(domain);
//            System.out.println(url);
//            System.out.println(traffic);


            StringBuilder builder = new StringBuilder("");
            builder.append(cdn).append("\t")
                    .append(region).append("\t")
                    .append(level).append("\t")
                    .append(time).append("\t")
                    .append(ip).append("\t")
                    .append(domain).append("\t")
                    .append(url).append("\t")
                    .append(traffic);

            result = builder.toString();

在LogUtilsTest.java中运行结果如下：
baidu	CN	E	20180717170750	223.104.18.110	v2.go2yd.com	http://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2226fd3f4c.mp4_bd.mp4	17168

这是一个比较简单的ETL雏形，在此基础上扩展即可。

4.1、CDN日志数据准备

一、首先要造一份数据
使用python日志生成器完成造数据

baidu\tCN\tA\tE\t[17/Jul/2018:17:07:50 +0800]\t2\t223.104.18.110\t-\t112.29.213.35:80\t0\tv2.go2yd.com\tGET\thttp://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2
CDN字段解析：
baidu ： CDN供应厂商
CN ：china
A ：不用管
E : 是一个Level
[17/Jul/2018:17:07:50 +0800] ：访问时所产生的时间
223.104.18.110 ：访问的一个ip
112.29.213.35:80 ：服务端的ip
v2.go2yd.com : 域名
http://v1.go2yd.com/user_upload/1531633977627104fdecdc68fe7a2c4b96b2 ：这是一个URL
TCP_HIT/206 : 我们看一个视频，如果cache端有，直接访问，没有的话回去服务端上去拿；hit是一个命中
17168 ：是一个命中缓存。

4.2、数据清洗ETL功能本地测试

承接4：4中我们测试的是把一条数据解析出来了；一般来说约定俗成的是测试类在main中的类的方法命名是加一个test。
满足字段长度为72根据我们的规则进行解析：
1、新建一个mapper和driver包：
在这里插入图片描述
1.1、LogETLMapper中的代码：

package com.ruozedata.hadoop.mapreduce.mapper;


import com.ruozedata.hadoop.utils.LogUtils;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;


public class LogETLMapper extends Mapper<LongWritable,Text,NullWritable,Text> {

    /**
     * 通过mapreduce框架的map方式进行数据清洗
     * 进来一条数据就按照我们的解析规则清洗完以后输出
     * @param key
     * @param value
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        super.map(key, value, context);
        int length = value.toString().split("\t").length;
        if (length==67){
            LogUtils utils = new LogUtils();
            String result = utils.parse(value.toString());

            if(StringUtils.isNotBlank(result)){
                context.write(NullWritable.get(),new Text(result));
            }
        }
    }
}

1.2、LogETLDriver中的代码：

运行时要新建一个input文件夹，把待清洗的数据放在input下，代码中指定输入、输出目录。

package com.ruozedata.hadoop.mapreduce.driver;

import com.ruozedata.hadoop.mapreduce.mapper.LogETLMapper;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LogETLDriver {
    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);
        job.setJarByClass(LogETLDriver.class);
        job.setMapperClass(LogETLMapper.class);
        job.setMapOutputKeyClass(NullWritable.class);
        job.setMapOutputKeyClass(Text.class);

        FileInputFormat.setInputPaths(job,new Path("input/baidu.log"));
        FileOutputFormat.setOutputPath(job,new Path("output/d=20190323"));

        job.waitForCompletion(true);
    }
}

代码写到此处，运行LogETLDriver，生成了一个output目录，但是没有文件写入。

在LogETLMapper.java中打一个断点，继续运行程序报错：Exception in thread “main” org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/G:/ruozedata_workspace/g6-hadoop/output/d=20190326 already exists
map方法跑的时候已经存在一个目录？？？？

代码中怎么拿到文件系统，继续修改代码，先写死，指定文件
public class LogETLDriver {
    public static void main(String[] args) throws Exception {
        System.setProperty("hadoop.home.dir","D:/cdh/hadoop-2.6.0-cdh5.7.0");
        Configuration configuration = new Configuration();

        FileSystem fileSystem = FileSystem.get(configuration);
        Path outputPath = new Path("output/d=20190326");
        if(fileSystem.exists(outputPath)){
            fileSystem.delete(outputPath,true);
        }

        Job job = Job.getInstance(configuration);
        job.setJarByClass(LogETLDriver.class);
        job.setMapperClass(LogETLMapper.class);
        job.setMapOutputKeyClass(NullWritable.class);
        job.setMapOutputKeyClass(Text.class);

        FileInputFormat.setInputPaths(job,new Path("input/"));
        FileOutputFormat.setOutputPath(job,new Path("output/d=20190326"));

        job.waitForCompletion(true);
    }
}

---------------------------------------------------------------------------------------------

修改代码，把它写活：
public class LogETLDriver {
    public static void main(String[] args) throws Exception {
        if(args.length != 2){
            System.err.println("please input 2 params: input output");
            System.exit(0);
        }

        String input = args[0];
        String output = args[1];            //"output/d=20190326"


        System.setProperty("hadoop.home.dir","D:/cdh/hadoop-2.6.0-cdh5.7.0");
        Configuration configuration = new Configuration();

        FileSystem fileSystem = FileSystem.get(configuration);
        Path outputPath = new Path(output);
        if(fileSystem.exists(outputPath)){
            fileSystem.delete(outputPath,true);
        }

        Job job = Job.getInstance(configuration);
        job.setJarByClass(LogETLDriver.class);
        job.setMapperClass(LogETLMapper.class);
        job.setMapOutputKeyClass(NullWritable.class);
        job.setMapOutputKeyClass(Text.class);

        FileInputFormat.setInputPaths(job,new Path(input));
        FileOutputFormat.setOutputPath(job,new Path(output));

        job.waitForCompletion(true);
    }

输入输入传参路径：
在这里插入图片描述

Exception in thread "main" java.lang.NullPointerException
at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)
at org.apache.hadoop.util.Shell.runCommand(Shell.java:505)
解决方案：
1）、在https://github.com/4ttty/winutils 下载hadoop.dll和winutils.exe 文件。
2）、配置hadoop家目录:System.setProperty("hadoop.home.dir","D:\\appanzhuang\\cdh\\hadoop-2.6.0-cdh5.7.0");
#注意d盘是我的hadoop实际的解压目录。
3）、把hadoop.dll拷贝到C:\Windows\System32下面
4）、把winutils.exe文件拷贝到${HADOOP_HOME}/bin目录下

4.3、数据清洗功能服务器测试

打包过程：1、view–>Tool Windows–>Maven Projects，出来我们当前的maven工程。
2、Lifecycle–>package–>Run Maven Build，进行打包。
在这里插入图片描述
JAR包编译成功,如下图。

jar包路径：C:\Users\Administrator\Desktop\g6-train-hadoop\target\g6-hadoop-1.0.jar
rz命令上传至服务器端，服务器端路径：/home/hadoop/lib/下

服务端运行jar包命令跑MapReduce：
hadoop jar /home/hadoop/lib/g6-hadoop-1.0.jar com.ruozedata.hadoop.mapreduce.driver.LogETLDriver /g6/hadoop/accesslog/20180717 /g6/hadoop/access/output
IDEA下对LogETLDriver右键copy reference，拷贝全路径的包名和类名：com.ruozedata.hadoop.mapreduce.driver.LogETLDriver  

1、将点击日志上传到Hadoop hdfs上：hadoop fs -mkdir -p /g6/hadoop/accesslog/20180717
hadoop fs -put hadoop-click-log.txt /g6/hadoop/accesslog/20180717
2、创建结果输出路径：
hadoop fs -mkdir -p /g6/hadoop/access/output
3、打开yarn的界面：http://10.0.0.134:8088/cluster
4、MapReduce跑完后，查看输出目录，hadoop fs -ls /g6/hadoop/access/output
5、hadoop fs -du -s -h /g6/hadoop/access/output   查看清洗后的文件大小。

我们也看到了很长一大段代码要跑MapReduce，如果每次我们都需要呢，建议使用Shell脚本。

vi g6-train-hadoop.sh
脚本如下
process_date=20180717			//全部通过变量传递进来
echo "step1:mapreduce etl"
hadoop jar /home/hadoop/lib/g6-hadoop-1.0.jar com.ruozedata.hadoop.mapreduce.driver.LogETLDriver /g6/hadoop/accesslog/$process_date /g6/hadoop/access/output/day=$process_date

1、保存shell后赋予可执行权限：chmod +x g6-train-hadoop.sh
2、执行：./g6-train-hadoop.sh
3、查看文件夹： hadoop fs -ls /g6/hadoop/access/output
4、详细查看清洗出来的文件目录：hadoop fs -ls /g6/hadoop/access/output/day=20180717
至此数据清洗已经通过MapReduce完成了。

4.4、使用Hive完成最基本的统计分析功能

启动hive，use g6;
#创建一张清洗后的表
create external table g6_access (
cdn string,
region string,
level string,
time string,
ip string,
domain string,
url string,
traffic bigint
) partitioned by (day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/g6/hadoop/access/clear' ;

跑MapReduce会删除目录，所以是/g6/hadoop/access/clear
移动数据到hive外部表对应的目录：

1、 hadoop fs -mkdir -p /g6/hadoop/access/clear/day=20180717    创建分区目录
2、 hadoop fs -mv /g6/hadoop/access/output/day=20180717/part-r-00000 /g6/hadoop/access/clear/day=20180717/		从output目录移动数据到clear目录
3、hadoop fs -ls /g6/hadoop/access/clear/day=20180717/		使用此命令查看clear目录
HIVE中进行查询：
1、select * from g6_access;		查看g6_access中的目录，此时为空
2、alter table g6_access add if not exists partition(day='20180717');		刷新hive表的元数据信息，此时在进行查询是有信息的
3、 select domain,sum(traffic) from g6_access group by domain;		统计每个域名的traffic（流量）之和，写sql；

总结：把原始日志清洗到数据仓库中来，之后的内容使用数据仓库来搞定

面试题1：Hive中的SQL是怎么转换为MapReduce的？给定一个SQL语句，你会转换成几个stage，stage之间的依赖关系是怎么样的.

zhikanjiani

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
大数据实战第二课-Hadoop离线项目之数据清洗

一、开发流程：项目调研：技术、业务产品经理、项目经理需求分析：做什么做成什么样用户提出来的：显示隐示需求：不懂的客户要为客户提供方案甘特图方案设计：概要设计、详设、系统设计（设计文档代码化）功能开发：开发测试：功能单元测试 CICD测试：功能联调性能用户试用（像我们erp系统开发、测试人员测试完后交由需求提出方进行测试）部署上线：试运行 DIFF 稳...
复制链接

扫一扫

专栏目录