Hive-从0到1

计算引擎

set hive.execution.engine -- 查看当前
set hive.execution.engine = tez/mr/spark -- 更改

建表

建表语句

create table if not exists table_name(
  col_name,data_type comment '字段注释'
)
comment '表注释'
row format delimited -- 分隔符关键字
  fields terminated by ',' -- 列分隔符
stored as 存储格式
;

分隔符

Hive默认列分隔符:\001
常用分隔符:
tab
,
" "
|
\n
\001 ^A (\u0001)
\002 ^B
\003 ^C

存储格式

选择

根据需求选择
存储效率/读效率:orc > parquet > rcfile > textfile
存储效率高选orc,快速写入选text,其他无脑parquet

文件存储格式(除textile)本身是有压缩的

行式存储

HDFS一个块存储一行或多行数据,按行压缩,压缩性能受字段类型影响
字段查询:select col_A from a; – 全表扫描,字段拼接,效率低
全表查询:select * from a; – 直接展现数据,效率高

textile

文本文件,Hive默认格式,不压缩,字段类型默认string
通用;写快读慢,存储效率低;不能切片

sequencefile

二进制文件,kv
优点:切片,兼容性好,三种压缩
缺点:导入数据可insert,不能直接load,可转化为textile来load

列式存储

HDFS一个块存储一列或多列数据,按列压缩,同列数据类型相同,压缩性能好
字段查询:select col_A from a; – 查询部分字段,直接展现,效率高
全表查询:select * from a; – 将分散的行重组,效率低

parquet

(跟ORC比较)parquet提供的schema表达方式更容易表示出多级嵌套的数据类型

行列混合

将数据按行分块(保证同一条记录在一个块上,读一条记录只需读一个块),每块按照列存储,有利于数据压缩和快速列读写

rc

缺点:需通过textile转化来load,写太慢

orc

特点:rc改良版本,存储效率比rc高
优点:有高级的特点,例如:支持update操作,支持ACID,支持struct,array复杂类型
缺点:需通过Text转换来load,写最慢

自定义存储格式

通过实现inputformat和 outputformat来自定义输入输出格式,解决特殊字符分割

Avro

开源项目,为Hadoop提供数据序列化和数据交换服务

函数

内置函数

Hive自带的函数

show functions -- 查看所有函数,共216个
show functions like '*array*' -- 模糊查询
desc function extended 函数名 -- 查看用法

自定义函数

使用场景举例

  • 生日转换成岁数
  • Json根据key找到value;解析
  • 正则表达式解析日志

为什么有

Hive内置函数不能满足需求了
其他模块的自定义功能:serde;输入输出格式等

分类

UDF:user defined function,用户自定义函数,一对一的输入输出(经常使用)
UDAF:user defined agregation function,用户自定义聚合函数,多对一的输入输出
UDTF:user defined table-generate function,用户自定义表生成函数,一对多的输入输出

怎么用

写Java文件

  • 继承UDF,重写evaluate(),允许重载
  • 继承geniricUDTF,重写initlizer()、getDisplay()、evaluate()
  • Java文件打成jar包

上传,关联

  • jar包上传到Hive
  • 关联:创建自定义的临时函数名与Java文件关联

函数生效范围

  • 当前session有效
    • 命令行cli
  • 永久有效
    • 文件
    • 源码编译

自定义serde

是什么

serde = serialize序列化(写数据) + deserialize反序列化(读数据)
常用serde:csv(逗号分隔值),tsv(tab分隔值),json,regexp

作用

Hive默认只能解析单字节分隔符
自定义serde可解析多字节分隔符

first_value/last_value

从第一行到当前行,第一个版本/最后一个版本
非空版本:first_value(col ignore nulls)

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值