大数据技术之Hive实战——Youtube项目(二)

本文介绍了使用Hive进行大数据处理的一个YouTube项目,包括数据结构、原始数据存储位置、技术选型(Hadoop 2.7.2、Hive 1.2.2、Mysql 5.6)。重点讲解了数据清洗过程,通过MapReduce实现ETL,去除非法数据,转换数据格式。项目中还涉及到了Maven配置和Hive表的创建,以及数据导入orc表的操作。最后,文章展示了如何利用Hive进行业务分析,如视频观看数Top10、视频类别热度等统计查询。
摘要由CSDN通过智能技术生成

三、项目

原始数据youtube在此下载:https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ

3.1、数据结构

3.1.1、视频表 
这里写图片描述
这里写图片描述
3.1.2、用户表 
这里写图片描述

3.2 原始数据存放地

HDFS 目录:

视频数据集:/youtube/video/2008

用户数据集:/youtube/users/2008

3.3、技术选型

Hadoop 2.7.2

Hive 1.2.2

Mysql 5.6

3.3.1、数据清洗

Hadoop MapReduce

3.3.2、数据分析

MapReduce or Hive

3.4、ETL 原始数据

通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,

且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进

行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清

洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频 id 也使用“&”

进行分割。

该项目的 pom.xml 文件:

<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.z</groupId>
<artifactId>youtube</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>
<name>youtube</name>
<url>http://maven.apache.org</url>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<repositories>
<repository>
<id>centor</id>
<url>http://central.maven.org/maven2/</url>
</repository>
</repositories>
<depend

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值