Hive元数据和元数据表的结构

最新推荐文章于 2024-08-06 10:36:56 发布

wty109

最新推荐文章于 2024-08-06 10:36:56 发布

阅读量1.1k

点赞数 21

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/wty109/article/details/139443667

版权

Hive元数据

Hive元数据是关于Hive中数据仓库的结构和属性的描述性信息。以下是关于Hive元数据的详细解释：

一、定义

Hive元数据，又称为Hive的Metadata，是描述Hive中数据属性的信息，包括数据库、表、分区、列等的详细信息。这些元信息被存储在关系型数据库中，如Hive内置的Derby、或者第三方如MySQL等。

二、Hive元数据的组成

Hive元数据主要包括以下内容：

Database元数据：包含Hive中创建的所有数据库的信息，如数据库的名称、描述等。
Table元数据：包含Hive中创建的表的信息，如表名、表的位置、表的类型（如外部表、内部表等）、表的属性（如存储格式、压缩方式等）、字段的顺序和类型等。
Partition元数据：对于分区表，Hive会存储每个分区的元信息，包括分区的名称、分区的位置、分区的键值等。
Column元数据：包含表中每个字段的详细信息，如字段名、字段类型、字段的注释等。

三、Hive元数据的存储

Hive元数据存储在关系型数据库中，以确保其可靠性和持久性。Hive支持多种方式来保存元数据，包括：

内嵌式（Embedded）元数据：Hive支持使用Derby数据库作为内嵌式的元数据存储。这种方式适用于开发和测试环境，因为它不需要单独的数据库服务器。但由于Derby数据库的性能和可扩展性限制，它不适合生产环境。
本地模式（Local mode）：Hive还支持将元数据保存在本地文件系统中。这种方式适用于单机模式，不需要分布式环境。它简单易用，但同样不适合生产环境。
使用外部关系型数据库：Hive支持使用外部关系型数据库（如MySQL或PostgreSQL）作为元数据存储。这种方式适用于生产环境，可以提供更好的性能和可扩展性。使用外部数据库可以支持多个Hive实例共享元数据，实现元数据的共享和集中管理。

四、Metastore服务

Metastore即元数据服务，是Hive中管理元数据的组件。Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通过连接metastore服务，再由metastore去连接MySQL等数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL等数据库的用户名和密码，只需要连接metastore服务即可。这在一定程度上保证了Hive元数据的安全。

五、总结

Hive元数据是Hive数据仓库的重要组成部分，它描述了Hive中数据的结构和属性。Hive元数据存储在关系型数据库中，支持多种存储方式，并通过Metastore服务进行管理和访问。合理地管理Hive元数据对于提高Hive的性能和可维护性至关重要。

Hive元数据表

Hive的元数据表结构主要包含了关于Hive数据仓库中各种对象的描述性信息，如数据库、表、分区、列等。以下是Hive元数据表结构的详细解释，按照不同的类别进行分点表示和归纳：

1. 数据库相关的元数据表

DBS
- 存储Hive中所有数据库的基本信息。
- 主要字段包括：DB_ID（唯一标识符）、DB_NAME（数据库名称）、OWNER_NAME（数据库所有者名称）等。
DATABASE_PARAMS
- 存储数据库的相关参数信息。
- 当在创建数据库时使用WITH DBPROPERTIES指定参数时，这些参数会被存储在此表中。

2. 表和视图相关的元数据表

TBLS
- 存储Hive表、视图、索引表的基本信息。
- 主要字段包括：TBL_ID（唯一标识符）、TBL_NAME（表名）、TBL_TYPE（表类型，如MANAGED_TABLE、EXTERNAL_TABLE、VIRTUAL_VIEW等）、DB_ID（与DBS表关联，表示该表属于哪个数据库）等。
- 对于视图，还有VIEW_EXPANDED_TEXT和VIEW_ORIGINAL_TEXT字段，分别存储规范化后的SQL和原始SQL。
TABLE_PARAMS
- 存储表/视图的属性信息。
- 这些属性可能包括表的统计信息、特性等。
TBL_PRIVS
- 存储表/视图的授权信息。

3. 文件存储信息相关的元数据表

SDS
- 存储表到HDFS路径和格式等信息。
- 主要字段包括：SD_ID（唯一标识符）、LOCATION（HDFS中的位置）、CD_ID（与SERDE表关联，表示数据的序列化/反序列化方式）等。
SD_PARAMS
- 存储Hive存储的属性信息。
- 这些属性可能在创建表时使用STORED BY子句指定。
SERDES
- 存储序列化使用的类信息。
SERDE_PARAMS
- 存储序列化的一些属性、格式信息，如行、列分隔符等。

4. 表字段相关的元数据表

COLUMNS_V2
- 存储表的字段信息。
- 主要字段包括：CD_ID（与表关联的唯一标识符）、COLUMN_NAME（字段名）、TYPE_NAME（数据类型）等。

5. 表分区相关的元数据表

PARTITIONS
- 存储分区的基本信息。
- 主要字段包括：PART_ID（唯一标识符）、TBL_ID（与表关联的唯一标识符）、PART_NAME（分区名）等。
PARTITION_KEYS
- 存储分区键的信息。
PARTITION_KEY_VALS
- 存储每个分区键的值。
PARTITION_PARAMS
- 存储分区的属性信息。