Hive知识点

kww.xml

已于 2022-03-29 09:20:42 修改

阅读量110

点赞数

文章标签： hive hadoop

于 2021-12-12 15:23:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55772213/article/details/121610377

版权

本文详细介绍了Hive作为数据仓库工具的定义、优缺点、架构以及与传统数据库的区别。深入探讨了Hive的元数据、数据类型、表的类型、数据加载方式和分区操作。此外，还涵盖了建表语句、窗口函数、行列转换以及Hive的查询优化思路，特别强调了解决数据倾斜的策略。

摘要由CSDN通过智能技术生成

目录

一.hive的定义

二.hive的优缺点

三. hive架构

四.hive和数据库的区别

五.hive元数据包括哪些，存在哪里

六. hive基本数据类型&&复杂数据类型

七. 内部表外部表区别

八. 往表中添加数据的5种方式

九. 往分区中添加数据的三种方式

十. 建表的完整语句

十一. 窗口函数的操作

十二. 行转列，列转行

十三. order by、sort by、Distribute By、Cluster By的用法区别

十四. hive的优化思路

十五. hive如何解决数据倾斜

一.hive的定义

由Facebook开源用于解决海量结构化日志的数据统计。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduc程序。

二.hive的优缺点

优点：

1.操作接口采用类SQL语法，提供快速开发能力（简单，易上手）；

2.不用写mapreduce，减少学习成本；

3.执行处理大数据，常用与数据分析，对实时性要求不高的场合；

4.适合处理大数据，因为hive执行延迟比较高。

5.hive支持用户自定义函数

缺点：

1.hive的HQL表达能力有限

（1）迭代式算法无法表达

（2）数据挖掘不擅长

2.hive的效率比较低

（1）自动生成mapreduce，不够智能化

（2）hive调优比较困难，粒度较粗

三. hive架构

1.客户端

2.驱动器（解析，编译，优化和执行）

3.元数据

4.Hadoop

四.hive和数据库的区别

1、数据存储位置。Hive是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。

2、数据格式。Hive中没有定义专门的数据格式，由用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。

3、数据更新。Hive的内容是读多写少的，因此，不支持对数据的改写和删除，数据都在加载的时候中确定好的。数据库中的数据通常是需要经常进行修改。

4、执行延迟。Hive在查询数据的时候，需要扫描整个表(或分区)，因此延迟较高，只有在处理大数据是才有优势。数据库在处理小数据是执行延迟较低。

5、索引。Hive没有，数据库有

6、执行。Hive是MapReduce，数据库是Executor

7、可扩展性。Hive高，数据库低

8、数据规模。Hive大，数据库小

五.hive元数据包括哪些，存在哪里

元数据（Metastore）包括：表名，表所属的数据库（默认是default),表的拥有者，列分区字段，表的类型（是否是外部表），表的数据所在目录等；

存在自带的derby数据库中，推荐使用MySQL存储Metastore

六. hive基本数据类型&&复杂数据类型

基本数据类型：

数据类型	长度	例子
TINYINT	1byte有符号整数	10
SMALINT	2byte有符号整数	10
INT	4byte有符号整数	10
BIGINT	8byte有符号整数	10
BOOLEAN	布尔类型，true或者false
FLOAT	单精度浮点数	1.0
DOUBLE	双精度浮点数	1.0
STRING	字符串	"dzqc"
TIMESTAMP	日期，时间戳或者字符串	1327882394或者'2020-5-20 15:30:20'
ARRAY	一组有序字段，类型必须相同	Array(1,2)
MAP	一组无序的键值对	Map('a',1,'b',2)
STRUCT	一组命名的字段，字段类型可以不同	Struct('a',1,1,0)

复杂数据类型：

Hive有三种复杂数据类型ARRAY、MAP和STRUCT。　　　　

ARRAY：数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素，每个数组元素都，有一个编号，编号从零开始。与Java中的Array类似。

MAP：MAP是一组键-值对元组集合，使用数组表示法可以访问数据。与Java中的Map类似

STRUCT：和c语言中的struct类似，都可以通过“点”符号访问元素内容。

七. 内部表外部表区别

1.内部表数据由hive自身管理，外部表数据由HDFS管理；

2.删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除

3.对内部表的修改会将修改直接同步给元数据，而对外部表的表结构和分区进行修改，则需要修复

八. 往表中添加数据的5种方式

1.装载

2.插入

3.追加

4.覆盖

5.保留到新建表

九. 往分区中添加数据的三种方式

1.覆盖

2.追加

3.装载

十. 建表的完整语句

CREATE TABLE IF NOT EXISTS table_name(

id        INT,

name        STRING

)ROW FORMAT DELIMITE

FIELDS TERMINATED BY '';

十一. 窗口函数的操作

RANK:值相同时，名次会重复，总数不变；比如，1，2，2，2，5

DENSE_RANK:值相同时，名次会重复，总数变少；比如，1，2，2，2，3

ROW_NUMBER:值相同时，名次按照顺序不重复，总数不变；比如，1，2，3，4，5

十二. 行转列，列转行

--行转列
--1 80,90 ,xxx,xx
--2 90-85-xxx-xx
SELECT * FROM score;

SELECT student_id,CONCAT_WS('-',COLLECT_LIST(CAST(score AS STRING))) AS `成绩`
FROM score GROUP BY student_id ;

--列转行
--跟Java wordcout差不多
--第一步 xshell创建数据
--第二步创建表
CREATE TABLE IF NOT EXISTS doc(text STRING);

SELECT * FROM doc;
--第三步导入数据
LOAD DATA LOCAL INPATH '/home/hadoop/hive/doc.txt' INTO TABLE doc;
--第四步去除空格（逗号）
SELECT SPLIT(text,' ') FROM doc;
--第五步把数据单独存放
SELECT EXPLODE(SPLIT(text,' ')) FROM doc;
--第六步完成词频统计进行展示
SELECT a.word,COUNT(*) FROM (SELECT EXPLODE(SPLIT(text,' ')) word FROM doc)a GROUP BY a.word;

十三. order by、sort by、Distribute By、Cluster By的用法区别

1.order by:会对输入做全局排序，只有一个reduce，会导致当输入规模较大时，消耗较长的计算时间。

2.sort by：不是全局排序，在数据进入reduce前进行排序，sort by不同于order by，它不受hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。

3.Distribute By:distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。distribute by经常和sort by配合使用。

4.Cluster By：cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒叙排序，不能指定排序规则为ASC或者DESC。

十四. hive的优化思路

1.mpajoin

2.行列过滤

3.列式存储

4.采用分区技术

5.合理设置map数

6.合理设置reduce数

7.压缩

十五. hive如何解决数据倾斜

1.mapjoin

2.group by

3.控制空值分布

4.开启数据倾斜时的负载均衡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

kww.xml CSDN认证博客专家 CSDN认证企业博客

码龄4年

1: 原创

211万+: 周排名

118万+: 总排名

117: 访问

: 等级

0: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

Hive知识点 110

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。