Hive中Serde有哪些种类？Hive预定义表属性是什么？

最新推荐文章于 2023-06-12 09:45:36 发布

让你五行代码

最新推荐文章于 2023-06-12 09:45:36 发布

阅读量564

点赞数 1

分类专栏： Python大数据文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/zy1992As/article/details/130967549

版权

Python大数据专栏收录该内容

85 篇文章 11 订阅

订阅专栏

在Hive中，Serde(序列化/反序列化器)用于将数据在Hive表和存储格式之间进行序列化和反序列化。Hive提供了一些预定义的Serde，包括以下几种：

　　1.LazySimpleSerDe：

　　这是Hive的默认Serde，用于处理逗号分隔的值(CSV)格式的数据。它支持字符串、整数、布尔值等基本数据类型。

　　2.AvroSerDe：

　　用于处理Avro格式的数据。Avro是一种数据序列化系统，它提供了一种与语言无关的数据结构描述。AvroSerDe将Avro数据与Hive表进行交互。

　　3.ParquetHiveSerDe：

　　用于处理Parquet格式的数据。Parquet是一种高效的列式存储格式，它在大数据处理中非常流行。ParquetHiveSerDe用于将Parquet数据与Hive表进行交互。

　　4.OrcSerde：

　　用于处理ORC(Optimized Row Columnar)格式的数据。ORC是一种高性能的列式存储格式，它提供了压缩、索引和谓词下推等优化功能。OrcSerde用于将ORC数据与Hive表进行交互。

　　除了这些预定义的Serde，还可以使用自定义的Serde来处理其他格式的数据。

　　关于Hive预定义表属性，常见的属性包括：

　　1.LOCATION：指定Hive表的物理存储路径。

　　2.SERDE：指定用于序列化和反序列化数据的Serde类。

　　3.STORED AS：指定表的存储格式，例如STORED AS TEXTFILE、STORED AS PARQUET等。

　　4.PARTITIONED BY：指定表的分区列，允许按照分区列对表进行分割和查询。

　　5.CLUSTERED BY：指定表的聚集列，用于将数据存储在一起以提高查询性能。

　　接下来我们看一段具体的代码示例，在示例中我们创建了一个使用LazySimpleSerDe的Hive表，并设置一些预定义属性：

-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;
USE mydatabase;

-- 创建Hive表
CREATE TABLE mytable (
  id INT,
  name STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim' = ','
)
STORED AS TEXTFILE;

-- 查看表结构
DESCRIBE mytable;

　　上述代码中，我们创建了一个名为mytable的Hive表，使用LazySimpleSerDe作为序列化/反序列化器，并设置了属性field.delim为逗号。该表存储格式为TEXTFILE。通过DESCRIBE命令可以查看表的结构。