Hive的基本操作

最新推荐文章于 2022-12-15 08:00:28 发布

xxydzyr

最新推荐文章于 2022-12-15 08:00:28 发布

阅读量326

点赞数

分类专栏：从零开始Hadoop Hadoop 文章标签： Hadoop Hive

本文链接：https://blog.csdn.net/xxydzyr/article/details/100915124

版权

Hive的基本操作

1. DDL 操作

1.1．创建表

建表语法：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
 [(col_name data_type [COMMENT col_comment], ...)] 
 [COMMENT table_comment] 
 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
 [CLUSTERED BY (col_name, col_name, ...) 
 [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
 [ROW FORMAT row_format] 
 [STORED AS file_format] 
 [LOCATION hdfs_path]

说明：

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。
EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）。
Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
COMMENT col_comment：列注释信息，可以不写
[COMMENT table_comment] ： 表相关注释信息，可以不写

LIKE 允许用户复制现有的表结构，但是不复制数据。

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name LIKE existing_table;

ROW FORMAT DELIMITED
```
[FIELDS TERMINATED BY char] 
[COLLECTION ITEMS TERMINATED BY char] 
[MAP KEYS TERMINATED BY char] 
[LINES TERMINATED BY char]  |  SERDE serde_name 
[WITH SERDEPROPERTIES 
(property_name=property_value, property_name=property_value,...)]
```
hive 建表的时候默认的分割符是’\001’，若在建表的时候没有指明分隔符，则会采用默认分隔符；load 文件的时候文件的分隔符需要是’\001’；若文件分隔符不是’001’，程序不会报错，但表查询的结果会全部为’null’；
用 vi 编辑器 Ctrl+v 然后 Ctrl+a 即可输入’\001’ -----------> ^A
SerDe 是 Serialize/Deserilize 的简称，目的是用于序列化和反序列化。
**Hive 读取文件机制：**首先调用 InputFormat（默认 TextInputFormat），返回一条一条记录（默认是一行对应一条记录）。然后调用 SerDe（默认LazySimpleSerDe）的 Deserializer，将一条记录切分为各个字段（默认’\001’）。
**Hive 写文件机制：**将 Row 写入文件时，主要调用 OutputFormat、SerDe 的Seriliazer，顺序与读取相反。可通过 desc formatted 表名；进行相关信息查看。当我们的数据格式比较特殊的时候，可以自定义 SERDE。

SERDE：
```
create table tablename(cloumn1 String,cloumn1 String...)
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'
```

最低0.47元/天解锁文章

xxydzyr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive的基本操作

Hive的基本操作1. DDL 操作1.1．创建表建表语法：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_typ...
复制链接

扫一扫