Hive的存储格式与模型以及支持的数据类型

Hive的存储格式与模型是Hive数据仓库的重要组成部分,它们决定了数据在Hive中的存储方式和查询效率。以下是Hive的主要存储格式与模型的详细介绍:

存储格式

Hive支持的存储格式主要有以下几种:

  1. TEXTFILE
    • 描述:TEXTFILE是Hive的默认存储格式,它按行存储数据,数据内容以普通文本形式存储。
    • 特点:TEXTFILE数据不做压缩,磁盘开销大,数据解析开销大。可以使用Gzip、Bzip2等压缩工具进行压缩,但压缩后的文件将不再支持MapReduce的并行处理机制。
    • 适用场景:适用于对存储和解析效率要求不高的场景。
  2. SEQUENCEFILE
    • 描述:SEQUENCEFILE是Hadoop API提供的一种二进制文件格式,具有使用方便、可分割、可压缩的特点。
    • 特点:SEQUENCEFILE同样按行存储数据,但内容以二进制字节形式存储,因此无法直接通过cat命令查看。
    • 适用场景:适用于需要二进制存储和高效压缩的场景。
  3. ORCFILE
    • 描述:ORC(Optimized Row Columnar)是Hive 0.11版之后引入的一种新的列式存储格式。
    • 特点:ORC存储方式将数据按行分块,每块按照列存储。它提供了更高的压缩比和更快的查询性能,尤其是当只需要查询表中的部分列时。
    • 适用场景:适用于列式存储需求较高、对查询性能有较高要求的场景。
  4. PARQUET
    • 描述:Parquet是另一种列式存储格式,由Twitter和Cloudera合作开发。
    • 特点:Parquet文件是不可直接读取的,但它是自解析的,文件中包含了数据和元数据。Parquet对于大型查询特别高效,特别适用于扫描特定表格中的特定列的查询。
    • 适用场景:与ORC类似,Parquet也适用于列式存储需求较高、对查询性能有较高要求的场景。
  5. RCFILE
    • 描述:RCFILE(Record-Columnar File)是Facebook开发的一种专门面向列的数据存储格式。
    • 特点:RCFILE采用行列混合存储的思想,先将数据按行分块再按列式存储。它有利于数据压缩和快速进行列存储。
    • 适用场景:适用于需要行列混合存储的场景。

存储模型

Hive的存储模型主要包括以下几个方面:

  1. 内部表:Hive创建内部表时,会将数据移动到数据仓库指向的路径。如果删除内部表,则表中的数据也会被删除。
  2. 外部表:Hive创建外部表时,仅记录数据所在的路径,不对数据位置做任何改变。如果删除外部表,则仅删除元数据,不删除数据。
  3. 分区:Hive支持按照某个列或多个列的值进行分区,将数据存储在不同目录下。这有助于提高查询性能,因为可以只扫描包含所需数据的分区。
  4. :Hive支持桶化(Bucketing)操作,将数据按照某个列的值进行哈希,然后存储到不同的文件中。这有助于并行处理数据和优化某些类型的查询。

综上所述,Hive的存储格式与模型为Hive数据仓库提供了灵活、高效的数据存储和查询能力,可以根据具体的应用场景选择合适的存储格式和模型。


Hive支持多种数据类型,以满足不同数据分析和处理的需求。以下是Hive数据类型的详细分类和描述:

基本数据类型(Primitive Data Types)

  1. 整数类型
    • TINYINT:1字节有符号整数,范围从-128到127。
    • SMALLINT:2字节有符号整数,范围从-32,768到32,767。
    • INT:4字节有符号整数,范围从-2,147,483,648到2,147,483,647。
    • BIGINT:8字节有符号整数,范围从-9,223,372,036,854,775,808到9,223,372,036,854,775,807。
  2. 浮点类型
    • FLOAT:4字节单精度浮点数。
    • DOUBLE:8字节双精度浮点数。
  3. 定点类型
    • DECIMAL:定点数,可以指定精度和小数位数。例如,DECIMAL(10, 2)表示最多10位数,其中2位小数。
  4. 字符串类型
    • STRING:可变长度的字符串,理论上可以存储2GB的字符数。
    • CHAR:定长字符串,可以指定长度。例如,CHAR(10)表示长度为10的字符串。
    • VARCHAR:可变长度字符串,可以指定最大长度。例如,VARCHAR(50)表示最大长度为50的字符串。
  5. 日期和时间类型
    • TIMESTAMP:时间戳,精确到纳秒。
    • DATE:日期,格式为YYYY-MM-DD。
    • INTERVAL:时间间隔。
  6. 布尔及二进制
    • BOOLEAN:表示二元的true或false。
    • BINARY:用于存储变长的二进制数据。

复杂数据类型(Complex Data Types)

  1. ARRAY:数组类型,用于存储同一数据类型的多个值。例如,ARRAY<INT>表示整数数组。
  2. MAP:映射类型,用于存储键值对。例如,MAP<STRING, INT>表示字符串到整数的映射。
  3. STRUCT:结构类型,用于存储具有多个属性的对象。例如,STRUCT<name: STRING, age: INT>表示包含名字(字符串)和年龄(整数)的结构。

Hive的这些数据类型为数据处理和分析提供了丰富的选择,可以根据具体需求选择合适的数据类型来存储和查询数据。

  • 17
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值