Hive高级操作

最新推荐文章于 2024-04-27 00:04:12 发布

Quinto0

最新推荐文章于 2024-04-27 00:04:12 发布

阅读量167

点赞数

分类专栏： Hive 文章标签： hive hive数据类型 hql sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43786255/article/details/99758808

版权

Hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Hive高级操作

1 Hive的数据类型

1.1 原子数据类型

（1）Hive 是用 Java 开发的，Hive 里的基本数据类型和 java 的基本数据类型也是一一对应的，除了 String 类型。

（2）有符号的整数类型：TINYINT、SMALLINT、INT 和 BIGINT 分别等价于 Java 的 Byte（1 字节）、Short（2 字节）、 Int （4 字节）和 Long （8 字节）有符号整数。

（3）Hive 的浮点数据类型 FLOAT 和 DOUBLE,对应于 Java 的基本类型 Float 和 Double 类型。

（4）Hive 的 BOOLEAN 类型相当于 Java 的基本数据类型 Boolean。

（5）Hive 的 String 类型相当于数据库的 Varchar 类型，该类型是一个可变的字符串，不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

（6）TIMESTAMP支持Unix timesstamp，可达纳秒级别

1.2 复杂数据类型

复杂数据类型包括数组（ARRAY）、映射（MAP）和结构体（STRUCT）。

ARRAY：是由一系列相同数据类型的元素组成，通过下标访问。如有一个 ARRAY 类型的变量 letter，它是由['aa','bb','cc']组成，那么我们可以通过 letter[1]来访问元素 bb，下标是从 0 开始的

MAP： key->value 键值对，可以通过 key 来访问元素。如”users”是一个 map 类型，其中 username 是 key ， password 是 value ；那么我们可以通过 userlist['username']来得到这个用户对应的 password

STRUCT：可以包含不同数据类型的元素。这些元素可以通过”点语法”的方式来得到所需要的元素，比如 user 是一个 STRUCT 类型，那么可以通过 user.address 得到这个用户的地址。

CREATE TABLE user( name STRING, hobby ARRAY, scores MAP, address STRUCT )

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

COLLECTION ITEMS TERMINATED BY ';'

MAP KEYS TERMINATED BY ':' ;

2 Hive函数

2.1 内置函数

查看内置函数： show functions;

显示函数的详细信息： desc function abs;

显示函数的扩展信息： desc function extended concat;

内置函数的详细相关使用及介绍见：https://blog.csdn.net/weixin_43786255/article/details/99642835

2.2 自定义UDF函数

当Hive提供的内置函数无法满足我们的需求时就需要自定函数

函数分类：

（1）UDF（user-defined function）作用于单个数据行，产生一个数据行作为输出。如：substr,round等

（2）UDAF（User- Defined Aggregation Funcation）用户定义聚集函数：接收多个输入数据行，并产生一个输出数据行。如count，max等

（3）UDTF（User-Defined Table Functions）表格生成函数：接收一行输入，输出多行，如：explode

在工作当中我们一般较多的是自定义UDF函数，聚合函数Hive提供的一般够用，下面介绍自定义UDF函数步骤：

①自定义一个类承 org.apache.hadoop.hive.ql.exec.UDF，重载 evaluate 方法

②在自定义类的evaluate 方法中实现逻辑，注意参数与返回值

③打成 jar 包上传到服务器

④将jar添加到hive的classpath下：add jar “jar包在服务器上的路径”

⑤创建一个临时函数并关联udf （自定义的class类）：craete temporary function name as "自定义的class类的全类名";

3 Hive特殊分割符处理与Json解析

hive 读取数据的机制：首先用 InputFormat的一个具体实现类读入文件数据，返回一条一条的记录；然后利用SerDe的一个具体实现类，对上面返回的一条一条的记录进行字段切割。

Hive 对文件中字段的分隔符默认情况下只支持单字节分隔符。

3.1 RegexSerDe

RegexSerDe是SerDe的一个具体实现类，通过正则表达式来抽取字段。现有如下数据：

01||小明::18

02||小红::20

创表语句如下

create table regex_test(id string,name string,age int)

row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'

with serdeproperties('input.regex'='(.*)\\|\\|(.*)::(.*)','output.format.string'='%1$s %2$s%3$s') stored as textfile;

也可以通过自定义inputstream类实现分割

3.3 Json解析

(1)解析json中的单个属性 get_json_object(json_str,’$.xxx’/‘$[xxx]’)

get_json_object函数第一个参数填写json对象变量(string)，第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组.

如：select get_json_object('{"name":"zs","age":"18"}',’$.name’) from table;

但是使用get_json_object()的时候只能一次访问一个json对象里的字段

(2)解析json中多个属性 json_tuple(json_str,’xxx1’,’xxx2’)

json_tuple函数第一个参数是json对象变量,以后参数是用单引号引起来的字段名字

如：select json_tuple('{"name":"zs","age":"18"}','name','age') from table;

如果要与原来数据进行合并使用

　　select id from table lateral view json_tuple(property,'tag_id','tag_type’);

4 视图

Hive 的视图和关系型数据库的数据是不一样的：

（1）只有逻辑视图，没有物化视图；

（2）视图只能查询，不能 Load/Insert/Update/Delete 数据；

（3）视图在创建时候，只是保存了一份元数据，当查询视图的时候，才开始执行视图对应的那些子查询

相关操作：

创建视图：create view view_name as select * from user;

查看视图：show tables;可以查看表，也可以查看视图 desc view_name查看某个具体视图的信息

删除视图：drop view if exists view_name

使用视图：select count(distinct userid) from view_name;

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive高级操作

Hive高级操作1 Hive的数据类型1.1 原子数据类型（1）Hive 是用 Java 开发的，Hive 里的基本数据类型和 java 的基本数据类型也是一一对应的，除了 String 类型。（2）有符号的整数类型：TINYINT、SMALLINT、INT 和 BIGINT 分别等价于 ...
复制链接

扫一扫

专栏目录

博客等级

码龄5年

115
原创

102
点赞

679
收藏

48
粉丝

关注

私信

热门文章

分类专栏

数据采集 1篇
Flink 12篇
其他 2篇
任务调度 2篇
ClickHouse 6篇
TIGK 4篇
Kafka 4篇
spark内核 16篇
Redis 1篇
用户画像 3篇
Spark 2篇
深度学习 3篇
算法原理 1篇
机器学习 13篇
Python基础 11篇
hadoop 7篇
java基础语法 14篇
java虚拟机
MySQL 1篇
SSM 2篇
Linux
java基础增强 1篇
Hive 6篇
HBase 2篇
Sqoop 1篇

最新评论

ClickHouse常见问题及其解决方案
欧阳小伙: 1.2 解决你写的是不是不对呀，我看前后顺序没有换
Python基础（六）--类与对象
LIKE___LEI: 博主写的非常好，希望能继续更新
Airflow简介
weixin_41877673: WINDOWS可以安装吗？
confluent connect写出到ES及ClickHouse
ESskale: 您好，参考您的连接clickhouse测试，我把clickhouse-jdbc-0.3.2.jar放到confluent部署目录的share/java/kafka-connect-jdbc目录下，重启confluent后，还是会报No suitable driver found for jdbc:clickhouse，请问是不是clickhouse-jdbc-0.3.2.jar放的位置还是不对
Canal原理及其使用
偷影子的人945: 如果 canal meta文件里面保存的binlog 日志编号与mysqlbinlog 日志文件里面存的不一致，导致数据无法实时推送数据，这个你是怎么解决的呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。