Hive的存储格式与模型以及支持的数据类型

最新推荐文章于 2024-07-23 00:00:00 发布

wty109

最新推荐文章于 2024-07-23 00:00:00 发布

阅读量666

点赞数 17

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/wty109/article/details/139330038

版权

Hive的存储格式与模型是Hive数据仓库的重要组成部分，它们决定了数据在Hive中的存储方式和查询效率。以下是Hive的主要存储格式与模型的详细介绍：

存储格式

Hive支持的存储格式主要有以下几种：

TEXTFILE
- 描述：TEXTFILE是Hive的默认存储格式，它按行存储数据，数据内容以普通文本形式存储。
- 特点：TEXTFILE数据不做压缩，磁盘开销大，数据解析开销大。可以使用Gzip、Bzip2等压缩工具进行压缩，但压缩后的文件将不再支持MapReduce的并行处理机制。
- 适用场景：适用于对存储和解析效率要求不高的场景。
SEQUENCEFILE
- 描述：SEQUENCEFILE是Hadoop API提供的一种二进制文件格式，具有使用方便、可分割、可压缩的特点。
- 特点：SEQUENCEFILE同样按行存储数据，但内容以二进制字节形式存储，因此无法直接通过cat命令查看。
- 适用场景：适用于需要二进制存储和高效压缩的场景。
ORCFILE
- 描述：ORC（Optimized Row Columnar）是Hive 0.11版之后引入的一种新的列式存储格式。
- 特点：ORC存储方式将数据按行分块，每块按照列存储。它提供了更高的压缩比和更快的查询性能，尤其是当只需要查询表中的部分列时。
- 适用场景：适用于列式存储需求较高、对查询性能有较高要求的场景。
PARQUET
- 描述：Parquet是另一种列式存储格式，由Twitter和Cloudera合作开发。
- 特点：Parquet文件是不可直接读取的，但它是自解析的，文件中包含了数据和元数据。Parquet对于大型查询特别高效，特别适用于扫描特定表格中的特定列的查询。
- 适用场景：与ORC类似，Parquet也适用于列式存储需求较高、对查询性能有较高要求的场景。
RCFILE
- 描述：RCFILE（Record-Columnar File）是Facebook开发的一种专门面向列的数据存储格式。
- 特点：RCFILE采用行列混合存储的思想，先将数据按行分块再按列式存储。它有利于数据压缩和快速进行列存储。
- 适用场景：适用于需要行列混合存储的场景。

存储模型

Hive的存储模型主要包括以下几个方面：

内部表：Hive创建内部表时，会将数据移动到数据仓库指向的路径。如果删除内部表，则表中的数据也会被删除。
外部表：Hive创建外部表时，仅记录数据所在的路径，不对数据位置做任何改变。如果删除外部表，则仅删除元数据，不删除数据。
分区：Hive支持按照某个列或多个列的值进行分区，将数据存储在不同目录下。这有助于提高查询性能，因为可以只扫描包含所需数据的分区。
桶：Hive支持桶化（Bucketing）操作，将数据按照某个列的值进行哈希，然后存储到不同的文件中。这有助于并行处理数据和优化某些类型的查询。

综上所述，Hive的存储格式与模型为Hive数据仓库提供了灵活、高效的数据存储和查询能力，可以根据具体的应用场景选择合适的存储格式和模型。

Hive支持多种数据类型，以满足不同数据分析和处理的需求。以下是Hive数据类型的详细分类和描述：

基本数据类型（Primitive Data Types）

整数类型
- TINYINT：1字节有符号整数，范围从-128到127。
- SMALLINT：2字节有符号整数，范围从-32,768到32,767。
- INT：4字节有符号整数，范围从-2,147,483,648到2,147,483,647。
- BIGINT：8字节有符号整数，范围从-9,223,372,036,854,775,808到9,223,372,036,854,775,807。
浮点类型
- FLOAT：4字节单精度浮点数。
- DOUBLE：8字节双精度浮点数。
定点类型
- DECIMAL：定点数，可以指定精度和小数位数。例如，DECIMAL(10, 2)表示最多10位数，其中2位小数。
字符串类型
- STRING：可变长度的字符串，理论上可以存储2GB的字符数。
- CHAR：定长字符串，可以指定长度。例如，CHAR(10)表示长度为10的字符串。
- VARCHAR：可变长度字符串，可以指定最大长度。例如，VARCHAR(50)表示最大长度为50的字符串。
日期和时间类型
- TIMESTAMP：时间戳，精确到纳秒。
- DATE：日期，格式为YYYY-MM-DD。
- INTERVAL：时间间隔。
布尔及二进制
- BOOLEAN：表示二元的true或false。
- BINARY：用于存储变长的二进制数据。

复杂数据类型（Complex Data Types）

ARRAY：数组类型，用于存储同一数据类型的多个值。例如，ARRAY<INT>表示整数数组。
MAP：映射类型，用于存储键值对。例如，MAP<STRING, INT>表示字符串到整数的映射。
STRUCT：结构类型，用于存储具有多个属性的对象。例如，STRUCT<name: STRING, age: INT>表示包含名字（字符串）和年龄（整数）的结构。

Hive的这些数据类型为数据处理和分析提供了丰富的选择，可以根据具体需求选择合适的数据类型来存储和查询数据。

wty109

关注

17
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Hive的存储格式与模型以及支持的数据类型

综上所述，Hive的存储格式与模型为Hive数据仓库提供了灵活、高效的数据存储和查询能力，可以根据具体的应用场景选择合适的存储格式和模型。Hive的这些数据类型为数据处理和分析提供了丰富的选择，可以根据具体需求选择合适的数据类型来存储和查询数据。
复制链接

扫一扫