Hive默认分割符、存储格式与数据压缩

10 篇文章 0 订阅



1、Hive默认分割符


Hive创建表时指定的行受限(ROW FORMAT)配置标准HQL为:

...
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\u0001'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
TBLPROPERTIES ('key'='value')
LOCATION '/user/hive/warehouse/...'

Hive中默认使用特殊符号对数据进行分割以避免歧义,Hive的默认分割符规则如下:

分隔符受限项HQL语法
^A(\001)字段(列)分隔符FIELDS TERMINATED BY
^B(\002)集合(array、struct、map)元素(map为键值对)间的分隔符COLLECTION ITEMS TERMINATED BY
^C(\003)map元素键与值间的分隔符MAP KEYS TERMINATED BY
\n行分隔符LINES TERMINATED BY

Hive默认的字段分隔符为^A(VIM编辑时显示)、\001(ASCII编码八进制显示)、\u0001(UNICODE编码十六进制显示);Notepad或控制台显示为SOH

Hive默认的集合元素之间分隔符为^B(VIM编辑时显示)、\002(ASCII编码八进制显示)、\u0002(UNICODE编码十六进制显示);Notepad或控制台显示为STX

Hive默认的映射K-V之间的分隔符为^C(VIM编辑时显示)、\003(ASCII编码八进制显示)、\u0003(UNICODE编码十六进制显示);Notepad或控制台显示为ETX

2、Hive存储格式


Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多

更多关于存储格式的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html

3、Hive数据压缩


Hive的数据压缩格式通过TBLPROPERTIES关键字指定

SNAPPY压缩在企业中使用较多

1) ORC存储格式的SNAPPY压缩:

STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY")

2) PARQUET存储格式的SNAPPY压缩:

STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="SNAPPY")

更多关于数据压缩的介绍见:https://www.cnblogs.com/jimmy888/p/13551605.html


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值