大数据技术之Hive实战——Youtube项目（二）

最新推荐文章于 2020-06-03 12:42:01 发布

xiaoyaGrace

最新推荐文章于 2020-06-03 12:42:01 发布

阅读量638

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/xiaoyaGrace/article/details/103347942

版权

本文介绍了使用Hive进行大数据处理的一个YouTube项目，包括数据结构、原始数据存储位置、技术选型（Hadoop 2.7.2、Hive 1.2.2、Mysql 5.6）。重点讲解了数据清洗过程，通过MapReduce实现ETL，去除非法数据，转换数据格式。项目中还涉及到了Maven配置和Hive表的创建，以及数据导入orc表的操作。最后，文章展示了如何利用Hive进行业务分析，如视频观看数Top10、视频类别热度等统计查询。

摘要由CSDN通过智能技术生成

三、项目

原始数据youtube在此下载：https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ

3.1、数据结构

3.1.1、视频表
这里写图片描述
这里写图片描述
3.1.2、用户表
这里写图片描述

3.2 原始数据存放地

HDFS 目录：

视频数据集：/youtube/video/2008

用户数据集：/youtube/users/2008

3.3、技术选型

Hadoop 2.7.2

Hive 1.2.2

Mysql 5.6

3.3.1、数据清洗

Hadoop MapReduce

3.3.2、数据分析

MapReduce or Hive

3.4、ETL 原始数据

通过观察原始数据形式，可以发现，视频可以有多个所属分类，每个所属分类用&符号分割，

且分割的两边有空格字符，同时相关视频也是可以有多个元素，多个相关视频又用“\t”进

行分割。为了分析数据时方便对存在多个子元素的数据进行操作，我们首先进行数据重组清

洗操作。即：将所有的类别用“&”分割，同时去掉两边空格，多个相关视频 id 也使用“&”

进行分割。

该项目的 pom.xml 文件：

<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.z</groupId>
<artifactId>youtube</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>
<name>youtube</name>
<url>http://maven.apache.org</url>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<repositories>
<repository>
<id>centor</id>
<url>http://central.maven.org/maven2/</url>
</repository>
</repositories>
<depend

最低0.47元/天解锁文章

xiaoyaGrace

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之Hive实战——Youtube项目（二）

三、项目原始数据youtube在此下载：https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ3.1、数据结构3.1.1、视频表这里写图片描述这里写图片描述3.1.2、用户表这里写图片描述3.2 原始数据存放地HDFS 目录：视频数据集：/youtube/video/2008用户数据集：/youtube/users/20083.3、技术选型Hadoop ...
复制链接

扫一扫

专栏目录