Hive-从0到1

日月交辉

已于 2024-02-04 18:51:47 修改

阅读量246

点赞数 8

分类专栏： Hive 文章标签： hive hadoop 数据仓库

于 2024-02-02 23:22:36 首次发布

本文链接：https://blog.csdn.net/weixin_45705483/article/details/135991498

版权

Hive 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文详细介绍了Hive中的建表语法，包括存储格式选择（如行式存储的Textile、列式存储的Parquet和ORC，以及行列混合的RCORC），自定义存储格式如Avro，以及函数的分类（内置函数、UDF、UDAF和UDTF）及其用法，重点强调了自定义Serde的作用和first_value/last_value函数的用途。

摘要由CSDN通过智能技术生成

计算引擎

set hive.execution.engine -- 查看当前
set hive.execution.engine = tez/mr/spark -- 更改

建表

建表语句

create table if not exists table_name(
  col_name,data_type comment '字段注释'
)
comment '表注释'
row format delimited -- 分隔符关键字
  fields terminated by ',' -- 列分隔符
stored as 存储格式
;

分隔符

Hive默认列分隔符：\001
常用分隔符：
tab
,
" "
|
\n
\001 ^A (\u0001)
\002 ^B
\003 ^C

存储格式

选择

根据需求选择
存储效率/读效率：orc > parquet > rcfile > textfile
存储效率高选orc，快速写入选text，其他无脑parquet

文件存储格式（除textile）本身是有压缩的

行式存储

HDFS一个块存储一行或多行数据，按行压缩，压缩性能受字段类型影响
字段查询：select col_A from a; – 全表扫描，字段拼接，效率低
全表查询：select * from a; – 直接展现数据，效率高

textile

文本文件，Hive默认格式，不压缩，字段类型默认string
通用；写快读慢，存储效率低；不能切片

sequencefile

二进制文件，kv
优点：切片，兼容性好，三种压缩
缺点：导入数据可insert，不能直接load，可转化为textile来load

列式存储

HDFS一个块存储一列或多列数据，按列压缩，同列数据类型相同，压缩性能好
字段查询：select col_A from a; – 查询部分字段，直接展现，效率高
全表查询：select * from a; – 将分散的行重组，效率低

parquet

（跟ORC比较）parquet提供的schema表达方式更容易表示出多级嵌套的数据类型

行列混合

将数据按行分块（保证同一条记录在一个块上，读一条记录只需读一个块），每块按照列存储，有利于数据压缩和快速列读写

rc

缺点：需通过textile转化来load，写太慢

orc

特点：rc改良版本，存储效率比rc高
优点：有高级的特点，例如：支持update操作，支持ACID，支持struct，array复杂类型
缺点：需通过Text转换来load，写最慢

自定义存储格式

通过实现inputformat和 outputformat来自定义输入输出格式，解决特殊字符分割

Avro

开源项目，为Hadoop提供数据序列化和数据交换服务

函数

内置函数

Hive自带的函数

show functions -- 查看所有函数，共216个
show functions like '*array*' -- 模糊查询
desc function extended 函数名 -- 查看用法

自定义函数

使用场景举例

生日转换成岁数
Json根据key找到value；解析
正则表达式解析日志

为什么有

Hive内置函数不能满足需求了
其他模块的自定义功能：serde；输入输出格式等

分类

UDF：user defined function，用户自定义函数，一对一的输入输出（经常使用）
UDAF：user defined agregation function，用户自定义聚合函数，多对一的输入输出
UDTF：user defined table-generate function，用户自定义表生成函数，一对多的输入输出