文章目录
计算引擎
set hive.execution.engine -- 查看当前
set hive.execution.engine = tez/mr/spark -- 更改
建表
建表语句
create table if not exists table_name(
col_name,data_type comment '字段注释'
)
comment '表注释'
row format delimited -- 分隔符关键字
fields terminated by ',' -- 列分隔符
stored as 存储格式
;
分隔符
Hive默认列分隔符:\001
常用分隔符:
tab
,
" "
|
\n
\001 ^A (\u0001)
\002 ^B
\003 ^C
存储格式
选择
根据需求选择
存储效率/读效率:orc > parquet > rcfile > textfile
存储效率高选orc,快速写入选text,其他无脑parquet
文件存储格式(除textile)本身是有压缩的
行式存储
HDFS一个块存储一行或多行数据,按行压缩,压缩性能受字段类型影响
字段查询:select col_A from a; – 全表扫描,字段拼接,效率低
全表查询:select * from a; – 直接展现数据,效率高
textile
文本文件,Hive默认格式,不压缩,字段类型默认string
通用;写快读慢,存储效率低;不能切片
sequencefile
二进制文件,kv
优点:切片,兼容性好,三种压缩
缺点:导入数据可insert,不能直接load,可转化为textile来load
列式存储
HDFS一个块存储一列或多列数据,按列压缩,同列数据类型相同,压缩性能好
字段查询:select col_A from a; – 查询部分字段,直接展现,效率高
全表查询:select * from a; – 将分散的行重组,效率低
parquet
(跟ORC比较)parquet提供的schema表达方式更容易表示出多级嵌套的数据类型
行列混合
将数据按行分块(保证同一条记录在一个块上,读一条记录只需读一个块),每块按照列存储,有利于数据压缩和快速列读写
rc
缺点:需通过textile转化来load,写太慢
orc
特点:rc改良版本,存储效率比rc高
优点:有高级的特点,例如:支持update操作,支持ACID,支持struct,array复杂类型
缺点:需通过Text转换来load,写最慢
自定义存储格式
通过实现inputformat和 outputformat来自定义输入输出格式,解决特殊字符分割
Avro
开源项目,为Hadoop提供数据序列化和数据交换服务
函数
内置函数
Hive自带的函数
show functions -- 查看所有函数,共216个
show functions like '*array*' -- 模糊查询
desc function extended 函数名 -- 查看用法
自定义函数
使用场景举例
- 生日转换成岁数
- Json根据key找到value;解析
- 正则表达式解析日志
为什么有
Hive内置函数不能满足需求了
其他模块的自定义功能:serde;输入输出格式等
分类
UDF:user defined function,用户自定义函数,一对一的输入输出(经常使用)
UDAF:user defined agregation function,用户自定义聚合函数,多对一的输入输出
UDTF:user defined table-generate function,用户自定义表生成函数,一对多的输入输出
怎么用
写Java文件
- 继承UDF,重写evaluate(),允许重载
- 继承geniricUDTF,重写initlizer()、getDisplay()、evaluate()
- Java文件打成jar包
上传,关联
- jar包上传到Hive
- 关联:创建自定义的临时函数名与Java文件关联
函数生效范围
- 当前session有效
- 命令行cli
- 永久有效
- 文件
- 源码编译
自定义serde
是什么
serde = serialize序列化(写数据) + deserialize反序列化(读数据)
常用serde:csv(逗号分隔值),tsv(tab分隔值),json,regexp
作用
Hive默认只能解析单字节分隔符
自定义serde可解析多字节分隔符
first_value/last_value
从第一行到当前行,第一个版本/最后一个版本
非空版本:first_value(col ignore nulls)