Hadoop历险记（八 Hive基本的库表操作）

vcaml7717

已于 2023-05-05 23:15:43 修改

阅读量127

点赞数

分类专栏： Hadoop历险记文章标签： hive

于 2023-05-05 21:38:26 首次发布

本文链接：https://blog.csdn.net/weixin_43966468/article/details/130513221

版权

Hadoop历险记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文介绍了在Hadoop集群上搭建并使用Hive进行数据操作，包括创建数据库、表的分区和桶的概念，以及内部表和外部表的区别。特别提到了默认的字段分隔符01和如何处理中文注释的乱码问题。此外，还讲解了最简单的数据导入方法，即通过HDFS网页界面上传数据文件。

摘要由CSDN通过智能技术生成

在这一章之前已经搭建好了hadoop，hive集群。且服务可以正常启动。
做好了前期这些准备工作，就可以动手实战hive了。

库操作

和我们平时用的sql一样首先要建库然后可以删改这些基础语句很简单就不赘述。这里要记录一点就是你在hive里面写完create datebase xxx 这个库会存到哪里。
默认路径是：

hdfs://node1:8020/user/hive/warehouse/xxx.db

hdfs://node1:8020前面的这部分是hdfs的远程url。
之前讲了 hive里面的表会映射hdfs里面的一个文件既然你创建了库那么库下面的表自然就会存到上面那个xxx.db路径下面了。
（这里再次强调 hdfs这个路径是抽象路径真实的数据是分块存储在各个机器上的）

表操作

hive的建表语句一定要认真学一下因为我们用hive分析数据最常用的就是不停的建表。查询，用查到的数据建新表.
没有接触过hive的新手会发现和mysql的建表是有区别的，因为他们的底层不一样：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[ (col_name data_type [COMMENT col_comment], ...) ]
[COMMENT table_comment]
[PARTITIONED BY(col_name data_type [COMMENT col_comment],...) ]
[CLUSTERED BY (col_name,col_name,...)]
[SORTED BY(col_name [ASC|DESC],...)] INTO num_buckers BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]

新手一看到这么多乱七八糟的心理会有排斥不要慌很多东西可以先不用管一步一步后面再理解

1、CREATE TABLE 创建一个指定名字的表，如果库中已有相同名的表，则抛出异常；
用户可以使用 IF NOT EXISTS 选项来忽略此异常。

2、EXTERNAL 关键字可以让用户创建一个外部表（默认创建内部表）。外部表在建表的同时必须指定一个指向实际数据的路径（LOCATION），Hive在创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

3、COMMENT 是给表字段或者表内容添加注释说明的。

4、PARTITIONED BY 给表做分区，决定了表是否为分区表。

5、CLUSTERED BY 对于每一个表（table）或者分区， Hive 可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分，Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

6、ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’，这里指定表存储中列的分隔符，默认是 \001，这里指定的是逗号分隔符，还可以指定其他列的分隔符。

7、STORED AS SEQUENCEFILE|TEXTFILE|RCFILE，如果文件数据是纯文本，可以使用 STORED AS TEXTFILE，如果数据需要压缩，使用 STORED AS SEQUENCEFILE。

8、LOCATION 定义 hive 表的数据在 hdfs 上的存储路径，一般管理表（内部表不不要自定义），但是如果定义的是外部表，则需要直接指定一个路径。

这里要注意分隔符指定语法它有四种来指定文件中的数据按什么char来分割我们最常用的就是第一种：字段分隔符
在这里插入图片描述

比如我们现在找一个结构化文件文件里面是王者荣耀的英雄属性每个字段的分隔符是\t 制表符将它映射成一张表我们暂时不写上面那些多余的可选参数就写最基本的 创建和分隔符制订：
（这里新手要记得不要偷懒所有的sql语句都要自己敲一遍）
打开dbeaver：

use xxx(库名)

CREATE table t_archer(
 id int,
 name string,
 hp_max int,
 mp_max int,
 attack_max int,
 defense_max int,
 attack_range string,
 role_main string,
 role_assist string
)
row format delimited
fields terminated by "\t";

创建成功之后我们的表就默认在
hdfs://node1:8020/user/hive/warehouse/xxx.db路径下面了，当然现在的它里面什么数据都没有我们只是建好了这样一张表。

外部表和内部表

这个概念在理解了前面的hive抽象表和hdfs的文件映射之后就非常好理解了
内部表就是上面讲的你建了库之后表的文件内存在hdfs 你的库文件目录之下。

而外部表就是这个文件路径可能不在hive库文件目录里面它可以在其他的地方比如它放在linux的某个文件夹下面这种就叫外部表。因为hive和hdfs并不是强关联的它只是友好的查询hdfs里的数据。有时候这个文件除了hive还有其他的查询程序要查所以它等于是一个共享的文件，一个外部的文件作为hive抽象表的映射文件这种就叫外部表