三、项目
原始数据youtube在此下载:https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ
3.1、数据结构
3.1.1、视频表
这里写图片描述
这里写图片描述
3.1.2、用户表
这里写图片描述
3.2 原始数据存放地
HDFS 目录:
视频数据集:/youtube/video/2008
用户数据集:/youtube/users/2008
3.3、技术选型
Hadoop 2.7.2
Hive 1.2.2
Mysql 5.6
3.3.1、数据清洗
Hadoop MapReduce
3.3.2、数据分析
MapReduce or Hive
3.4、ETL 原始数据
通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,
且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进
行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清
洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频 id 也使用“&”
进行分割。
该项目的 pom.xml 文件:
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.z</groupId>
<artifactId>youtube</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>
<name>youtube</name>
<url>http://maven.apache.org</url>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<repositories>
<repository>
<id>centor</id>
<url>http://central.maven.org/maven2/</url>
</repository>
</repositories>
<depend
大数据技术之Hive实战——Youtube项目(二)
最新推荐文章于 2020-06-03 12:42:01 发布
本文介绍了使用Hive进行大数据处理的一个YouTube项目,包括数据结构、原始数据存储位置、技术选型(Hadoop 2.7.2、Hive 1.2.2、Mysql 5.6)。重点讲解了数据清洗过程,通过MapReduce实现ETL,去除非法数据,转换数据格式。项目中还涉及到了Maven配置和Hive表的创建,以及数据导入orc表的操作。最后,文章展示了如何利用Hive进行业务分析,如视频观看数Top10、视频类别热度等统计查询。
摘要由CSDN通过智能技术生成