【Hive从入门到精通之基础篇】Hive的分区表（比较重要，开发必用）

最新推荐文章于 2024-02-21 22:51:53 发布

hi枫林客

最新推荐文章于 2024-02-21 22:51:53 发布

阅读量598

点赞数 1

分类专栏： Hive 文章标签： Hive

本文链接：https://blog.csdn.net/wnf2018/article/details/100905735

版权

本文详细介绍了Hive的分区表概念，包括如何提高查询效率，创建与操作分区表，二级分区表的创建及数据加载。同时探讨了数据与分区表关联的三种方法，包括数据上传后的修复、添加指定分区以及使用load命令加载数据。

摘要由CSDN通过智能技术生成

1、何为分区表

（1）基本概念：在Hive中，分区表的意思就是相当于在该表对应的文件夹目录下创建子目录来存储不同该表分区字段对应的数据（简单一句话总结就是hive中的分区表就是分目录存储数据，将一个表的所有数据根据业务来切分成一个个小的数据集来存储）。

（2）分区表数据的查询通过where关键字来指定分区字段来进行查询，这样可以提高查询的效率。

2、分区表的基本操作

（1）创建分区表的语法

create table t_emp_partition(
emp_no int,
emp_name string
)
partitioned by (dt string) # 指定分区字段，粒度可以是按天来分区存储数据或者按月来存储
row format delimited fields terminated by '\t';

（2）通过load命令加载数据到分区表中

load data [local] inpath '数据所在的目录，可以是本地系统或者HDFS文件系统上的目录' into table 库名.表名 partition (dt = '2019-09-16') 

#备注：[local]是可选的，如果是本地系统，则需要加上local关键字，如果是HDFS文件系统上的数据则不用。

（3）查询分区表的数据

select * from t_emp_partition where dt = '2019-09-16&#

最低0.47元/天解锁文章

hi枫林客

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录