Hive高级操作

                                          Hive高级操作

1 Hive的数据类型

1.1 原子数据类型

(1)Hive 是用 Java 开发的,Hive 里的基本数据类型和 java 的基本数据类型也是一一对应的, 除了 String 类型。

(2)有符号的整数类型:TINYINT、SMALLINT、INT 和 BIGINT 分别等价于 Java 的 Byte(1 字节)、Short(2 字节)、 Int (4 字节)和 Long (8 字节)有符号整数。

(3)Hive 的浮点数据类型 FLOAT 和 DOUBLE,对应于 Java 的基本类型 Float 和 Double 类型。

(4)Hive 的 BOOLEAN 类型相当于 Java 的基本数据类型 Boolean。

(5)Hive 的 String 类型相当于数据库的 Varchar 类型,该类型是一个可变的字符串,不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。

(6)TIMESTAMP支持Unix timesstamp,可达纳秒级别

1.2 复杂数据类型

复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT)。

ARRAY:是由一系列相同数据类型的元素组成,通过下标访问。 如有一个 ARRAY 类型的变量 letter,它是由['aa','bb','cc']组成,那么 我们可以通过 letter[1]来访问元素 bb,下标是从 0 开始的

MAP: key->value 键值对,可以通过 key 来访问元素。如”users”是一个 map 类 型 , 其 中 username 是 key , password 是 value ; 那 么 我 们 可 以 通 过 userlist['username']来得到这个用户对应的 password

STRUCT:可以包含不同数据类型的元素。这些元素可以通过”点语法”的方式来得到所需要的元素,比如 user 是一个 STRUCT 类型,那么可以通过 user.address 得 到这个用户的地址。

CREATE TABLE user( name STRING, hobby ARRAY, scores MAP, address STRUCT )

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

COLLECTION ITEMS TERMINATED BY ';'

MAP KEYS TERMINATED BY ':' ;

2 Hive函数

2.1 内置函数

查看内置函数: show functions;

显示函数的详细信息: desc function abs;

显示函数的扩展信息: desc function extended concat;

内置函数的详细相关使用及介绍见:https://blog.csdn.net/weixin_43786255/article/details/99642835

2.2 自定义UDF函数

当Hive提供的内置函数无法满足我们的需求时就需要自定函数

函数分类:

(1)UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。如:substr,round等

(2)UDAF(User- Defined Aggregation Funcation)用户定义聚集函数 :接收多个输入数据行,并产 生一个输出数据行。如count,max等

(3)UDTF(User-Defined Table Functions)表格生成函数 :接收一行输入,输出多行,如:explode

在工作当中我们一般较多的是自定义UDF函数,聚合函数Hive提供的一般够用,下面介绍自定义UDF函数步骤:

①自定义一个类承 org.apache.hadoop.hive.ql.exec.UDF,重载 evaluate 方法

②在自定义类的evaluate 方法中实现逻辑,注意参数与返回值

③打成 jar 包上传到服务器

④将jar添加到hive的classpath下:add jar “jar包在服务器上的路径”

⑤创建一个临时函数并关联udf (自定义的class类):craete temporary function name as "自定义的class类的全类名";

3 Hive特殊分割符处理与Json解析

hive 读取数据的机制: 首先用 InputFormat的一个具体实现类读入文件数据,返回一条一条的记录;然后利用SerDe的一个具体实现类,对上面返回的一条一条的记录进行字段切割。

Hive 对文件中字段的分隔符默认情况下只支持单字节分隔符。

3.1 RegexSerDe

RegexSerDe是SerDe的一个具体实现类,通过正则表达式来抽取字段。现有如下数据:

01||小明::18

02||小红::20

创表语句如下

create table regex_test(id string,name string,age int)

row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'

with serdeproperties('input.regex'='(.*)\\|\\|(.*)::(.*)','output.format.string'='%1$s %2$s%3$s') stored as textfile;

也可以通过 自定义inputstream类实现分割

3.3 Json解析

(1)解析json中的单个属性  get_json_object(json_str,’$.xxx’/‘$[xxx]’)

get_json_object函数第一个参数填写json对象变量(string),第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组.

如:select get_json_object('{"name":"zs","age":"18"}',’$.name’) from table;

但是使用get_json_object()的时候只能一次访问一个json对象里的字段

(2)解析json中多个属性 json_tuple(json_str,’xxx1’,’xxx2’)

json_tuple函数第一个参数是json对象变量,以后参数是用单引号引起来的字段名字

如:select json_tuple('{"name":"zs","age":"18"}','name','age') from table;

如果要与原来数据进行合并使用

  select id from table lateral view json_tuple(property,'tag_id','tag_type’); 

4 视图

Hive 的视图和关系型数据库的数据是不一样的:

(1)只有逻辑视图,没有物化视图;

(2)视图只能查询,不能 Load/Insert/Update/Delete 数据;

(3)视图在创建时候,只是保存了一份元数据,当查询视图的时候,才开始执行视图对应的那些子查询

相关操作:

创建视图:create view view_name as select * from user;

查看视图:show tables;可以查看表,也可以查看视图               desc view_name查看某个具体视图的信息

删除视图:drop view if exists view_name

使用视图:select count(distinct userid) from view_name;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值