![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
ysjh0014
QQ:3463446481
展开
-
Hive项目实现五
5.每个类别中的视频热度 Top10,以Music为例需求分析: 先将user_orc表中的category(视频类别) 展开,可以创建一张表用于存放视频类别,然后向表中插入数据,最后统计对应类别(Music)中的视频热度创建表create table test(videoId string,uploader string,age int,categoryId strin...原创 2018-09-12 20:32:16 · 1311 阅读 · 0 评论 -
Hive中DDL数据定义之分区表
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多1.单级分区表基本操作 1)创建分区表语法create table test(deptno int,dname string,...原创 2018-09-07 18:05:21 · 331 阅读 · 0 评论 -
Hive中DDL数据定义之管理表与外部表
管理表1.理论默认创建的表都是所谓的管理表,有时也被称为内部表。因为这种表,Hive会(或多或少地)控制着数据的生命周期。Hive默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的目录的子目录下。 当我们删除一个管理表时,Hive也会删除这个表中数据。管理表不适合和其他工具共享数据...原创 2018-09-06 18:40:53 · 195 阅读 · 0 评论 -
Hive中DDL数据定义之建表语法
1.创建表建表语法create [external] table [if not exists] table_name [(col_name data_type [comment col_comment], ...)][comment table_comment][partitioned by (col_name data_type [comment col_comment]...原创 2018-09-06 11:36:14 · 558 阅读 · 1 评论 -
Hive中DDL数据定义之数据库操作
1.创建数据库create database 数据库名;避免要创建的数据库已经存在错误,增加if not exists判断(标准写法)create database if not exists 数据库名;创建一个数据库,指定数据库在HDFS上存储的位置:create database 数据库名 location '/你想要存放HDFS中的目录'; *这里会自动生...原创 2018-09-06 11:14:13 · 239 阅读 · 0 评论 -
Hive数据类型
1.基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 ...原创 2018-09-05 21:38:47 · 1080 阅读 · 0 评论 -
hive常用的交互操作详解
bin/hive -help1. bin/hive -e "要执行的sql语句";这样可以不用进入交互式命令行去执行sql语句,直接就能显示出结果2. bin/hive -f sql语句脚本目录可以执行sql脚本文件 bin/hive -f sql语句脚本目录 > 执行结果要写到的目录这样可以将执行结果写到指定的位置目录3. bin/hive -i ...原创 2018-07-12 16:47:33 · 959 阅读 · 0 评论 -
hive基本操作及常见属性配置
前面已经对hive进行了简单的讲解,包括如何在hive中创建一张表,并向表中加载数据,下面说一些hive的其它基本操作下边的讲解中的数据库和表为db_hive和student基本操作:1.查看表的信息用desc和select能够查看表的字段和字段下边的数据,这个和sql语句中的一样查看表的具体信息:desc formatted db_hive.student; ...原创 2018-07-12 14:58:54 · 937 阅读 · 0 评论 -
大数据仓库hive初识简介
hive是FaceBook实现并开源的用于解决海量结构化日志的数据统计,是为了解决Mapreduce编程的不便性以及成本高的问题,可以简化操作什么是hive: 处理的数据储存在HDFS上 底层分析数据的实现是Mapreduce 执行程序运行在yarn上hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类S...原创 2018-06-17 18:05:03 · 322 阅读 · 0 评论 -
HIve中分区数据关联的三种方式
之前的分区表都是先创建表然后加载数据到分区表中,然后就会在HDFS自动创建相关的目录存储数据,但是这里反过来做,先在HDFS中创建相应的目录,然后把数据直接上传到这个目录下,具体如下所示先在HDFS中创建存放数据的目录dfs -mkdir -p /user/hive/warehouse/ys.db/test/month=201809/day=02;然后直接上传数据到该目录下 d...原创 2018-09-07 18:29:18 · 3179 阅读 · 0 评论 -
Hive中DDL数据定义之修改表
1.重命名表alter table 原表名 rename to 新表名;2.增 删分区表 见 Hive中DDL数据定义之分区表3.修改表中列信息 查询表结构desc 表名; 添加列alter table 表名 add columns(deptdesc string); 更新列alter table 表名 change column de...原创 2018-09-07 18:45:28 · 349 阅读 · 0 评论 -
Hive中DML数据操作
1.数据导入 1)向表中装载数据(load)语法load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; load data:表示加载数据 local:表示从本地加载数据到hive...原创 2018-09-07 21:33:55 · 194 阅读 · 0 评论 -
Hive项目实战四
最终业务实现 1.视频观看数 Top10使用order by做一个全局排序即可select videoId,uploader,views from user_orc order by views desc limit 20; 2. 视频类别热度 Top10需求分析: 统计出每个类别有多少个视频,然后显示出视频最多的前10个,我们需要使用group by对视频类别进...原创 2018-09-12 14:06:16 · 673 阅读 · 0 评论 -
Hive项目实战三
创建表这里总共需要创建4张表,明明只有两个数据文件,为什么要创建4张表呢?因为这里创建的表要使用orc的压缩方式,而不使用默认的textfile的方式,orc的压缩方式要想向表中导入数据需要使用子查询的方式导入,即把从另一张表中查询到的数据插入orc压缩格式的表汇中,所以这里需要四张表,两张textfile类型的表user和video,两张orc类型的表user_orc和video_orc...原创 2018-09-12 12:50:22 · 766 阅读 · 3 评论 -
Hive项目实战二
1.数据清洗 1)数据分析在video.txt中,视频可以有多个所属分类,每个所属分类用&符号分割,并且分割的两边有空格字符,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。具体做法:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频 id 也使用“&”进行分割,这里看起来将"&...原创 2018-09-12 12:31:22 · 1659 阅读 · 0 评论 -
Hive项目实战一
1.需求描述统计某视频网站的常规指标,各种 TopN 指标: 视频观看数 Top10 视频类别热度 Top10 视频观看数 Top20 所属类别包含这 Top20 视频的个数 视频观看数 Top50 所关联视频的所属类别的热度排名 每个类别中的视频热度 Top10,以Music为例 每个类别中视频流...原创 2018-09-10 20:56:13 · 2407 阅读 · 0 评论 -
Hive文件存储格式
Hive 支持的存储数的格式主要有:textfile sequencefile orc parquet1.列式存储和行式存储右边第一个为行式存储,第二个为列式存储 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时 行存储查询的速度...原创 2018-09-08 20:04:18 · 438 阅读 · 0 评论 -
Hive中函数
1.系统自带的函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;2.自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己...原创 2018-09-08 19:35:39 · 1543 阅读 · 0 评论 -
Hive中分桶及抽样查询
1.分桶分桶表数据存储 分区针对的是数据的存储路径;分桶针对的是数据文件 分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。 分桶是将数据集分解成更容易管理的若干部分的另一个技术数据准备student.txt1001 ss11002 ss...原创 2018-09-08 19:22:15 · 621 阅读 · 0 评论 -
Hive中数据查询
1.基本查询全表和特定列查询1)全表查询hive (default)> select * from emp;2)选择特定列查询hive (default)> select empno, ename from emp; 注意: (1)SQL 语言大小写不敏感。 (2)SQL 可以写在一行或者多行 (3)关键字不能被缩写...原创 2018-09-08 18:05:10 · 1473 阅读 · 1 评论 -
hive安装部署及初步使用
hive是将mapreduce这个过程进行了封装,现在只需要写HSQL语句就可以实现mapreduce,所以hive的运行环境就是hadoop下面的hive安装部署是在hadoop集群已经安装好并且能够运行的前提下,如果没有可以参考我之前的博文,hadoop的伪分布式和分布式都有详细的步骤介绍hive安装部署:我这里的hive是1.2.1版本的,2.0以上的版本和以下的版本底层不一样,...原创 2018-06-20 11:07:40 · 3330 阅读 · 0 评论