大数据Hive--分区表和分桶表

最新推荐文章于 2025-08-22 05:35:28 发布

泛黄的咖啡店

最新推荐文章于 2025-08-22 05:35:28 发布

阅读量2.3k

点赞数 25

CC 4.0 BY-SA版权

分类专栏： Apache hive 文章标签：大数据 hive

本文链接：https://blog.csdn.net/xd__xy/article/details/136244002

文章目录

一、分区表
二、分桶表
- 2.1 分桶表基本语法
- 2.2 分桶排序表

一、分区表

1.1 分区表

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。

1.1.1 分区表基本语法

1.1.1.1 创建分区表

create table dept_partition
(
    deptno int,    --部门编号
    dname  string, --部门名称
    loc    string  --部门位置
)
    partitioned by (day string)
    row format delimited fields terminated by '\t';

1.1.1.2 分区表读写数据

1）写数据

load

在/opt/module/hive/datas/路径上创建文件dept_20220401.log，并输入如下内容

[yudan@hadoop102 datas]$ vim dept_20220401.log

10	行政部	1700
20	财务部	1800

load data local inpath '/opt/module/hive/datas/dept_20220401.log' 
into table dept_partition 
partition(day='20220401');

insert

将day='20220401’分区的数据插入到day='20220402’分区，可执行如下装载语句

insert overwrite table dept_partition partition (day = '20220402')
select deptno, dname, loc
from dept_partition
where day = '2020-04-01'

2）读数据

查询分区表数据时，可以将分区字段看作表的伪列，可像使用其他字段一样使用分区字段。

select deptno, dname, loc ,day
from dept_partition
where day =</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

泛黄的咖啡店

关注关注

25
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

(03)Hive的相关概念——分区表、分桶表

爱吃辣条的博客

02-14

2368

Hive的相关概念——分区表、分桶表

Hive查询系列之分区表与分桶表

weixin_49063354的博客

08-21

1061

Hive查询之分区表与分桶表 1 分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。 1.1 分区表基本操作 1）引入分区表（需要根据日期对日志进行管理, 通过部门信息模拟） dept_20200401.log dept_20200402.log dept_20200403.log 2）

1 条评论您还未登录，请先登录后发表或查看评论

Hive 分区表 & 分桶表

扛麻袋的少年的博客

06-01

5344

八、Hive 分区表 & 分桶表 1.分区表 Ⅰ.分区表基本操作 Ⅱ.二级分区 Ⅲ.动态分区 Ⅳ.手工创建的分区目录，如何让数据与分区信息进行关联 2.分桶表 Ⅰ.分桶表基本操作 Ⅱ.抽样查询

海量数据处理中的分区与分桶技术实践

最新发布

没事学AI的博客

08-22

745

摘要：本文系统介绍了大数据处理中的分区与分桶技术。数据分区通过预设规则拆分数据集，实现负载均衡与高效查询（范围/列表/哈希/复合分区）；分桶则在分区基础上进行更细粒度划分，优化聚合计算与表连接性能。二者协同构建"分区-桶-数据文件"三级存储结构，支撑PB级数据处理。文中包含Hive、MySQL等典型实现案例，展示电商订单分析、社交平台用户管理等场景下的具体应用方案，为构建高效数据仓库提供关键技术参考。

Hive分区表和分桶表

mxk4869的博客

07-06

1439

Hive分区表和分桶表

Hive中的分区表与分桶表详解

qq_45115959的博客

09-08

3325

不过，并非所有的数据集都可形成合理的分区。分桶表的基本原理是，首先为每行数据计算一个指定字段的数据的 hash 值，然后模以一个指定的分桶数，最后将取模运算结果相同的行，写入同一个文件中，这个文件就称为一个分桶（bucket）。动态分区的模式，默认 strict（严格模式），要求必须指定至少一个分区为静态分区，nonstrict（非严格模式）允许所有的分区字段都使用动态分区。命令后，分区元数据会被删除，而 HDFS 的分区路径不会被删除，同样会导致 Hive 的元数据和 HDFS 的分区路径不一致。

apache-hive-2.3.9-bin.tar大数据HIVE.zip

10-08

1. **数据模型**：Hive 支持两种主要的数据存储结构——表（Table）和分区（Partition）。表是数据的基本单位，可以看作是关系数据库中的表格。分区则是对大表进行逻辑上的划分，通过将数据按特定字段值进行分类，...

hive-3.1.3 hive-3.1.3 hive-3.1.3

01-22

Hive的元数据存储主要用于存储表结构信息，例如表名、表所在的数据库、列的数据类型、表的位置（HDFS上的路径）、表的分区信息等。Hive的驱动器负责处理HiveQL语句的整个生命周期，包括编译、优化和执行。它接收用户...

【大数据入门 | Hive】分区表和分桶表

2301_80912559的博客

10-12

980

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。

hive-testbench-hive14.zip大数据TPCDS-99SQL自动测试脚本

02-25

总结来说，“hive-testbench-hive14.zip”提供的测试工具和脚本，是评估和优化Hive在大数据环境下的性能的关键。通过对TPCDS 99条SQL查询的执行，我们可以深入理解Hive的性能特性，从而更好地支持企业的数据分析需求...

详解 Hive 分区表和分桶表

weixin_44480009的博客

05-16

1345

分区表实际上是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件Hive 中的分区就是分目录，即把一个大的数据集根据业务需要分割成小的数据集在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，可以避免全表扫描，进而提高查询效率对于一张表或者分区，Hive 可以进一步组织成桶，进行更为细粒度的数据范围划分分桶是将数据集分解成更容易管理的若干部分的另一个技术分区针对的是数据的存储路径；分桶针对的是数据文件。

Hive 分桶表

过河卒子Rover的博客

02-05

2935

hive 分桶表

【Hive】分桶表

HR的博客

04-08

330

分桶表先创建分桶表分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径；分桶针对的是数据文件。先创建分桶表数据准备建表以sid分桶，分四桶 create table stu_buck(sid int,subject string,score int) clustered by (sid) in

大数据—Hive（七）_ 分区表和分桶表

梳理大数据技术

01-17

1954

Hive 不同于传统的数据库，将存储与计算分离

Hive分桶表

feizuiku0116的博客

10-17

326

一、分桶表的创建原始分桶表 create table test_tb_f ( id int, name string, age int, gender string ) row format delimited fields terminated by ','; 创建分桶表 create table test_tb_ft( id int, name string, age int, gender strin

【Hive-分区表和分桶表】

Tonystark_lz的博客

09-06

696

分区表与分桶表

Hive -- 内部分区表

04-03

### Hive内部分区表的概念及其实现 #### 分区表的核心概念 Hive中的分区表是一种用于优化大数据查询的技术。它通过将数据按照某个或某些列的值划分为不同的子集，从而使得查询操作更加高效[^2]。这种技术允许用户仅加载特定条件下的数据，而不是扫描整个表格的内容。 #### 动态分区功能为了支持更灵活的数据插入方式，Hive引入了动态分区的功能。启用此功能需要设置参数`hive.exec.dynamic.partition=true`[^1]。这样，在向分区表中插入数据时，Hive可以根据实际数据内容自动生成对应的分区路径并保存数据[^3]。 #### 创建分区表的具体方法以下是创建一个基于日期字段(`day`)进行分区的表的例子： ```sql CREATE TABLE dept_partition ( deptno INT, -- 部门编号 dname STRING, -- 部门名称 loc STRING -- 部门位置 ) PARTITIONED BY (day STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; ``` 上述SQL语句定义了一个名为`dept_partition`的表，并指定了按字符串类型的`day`字段进行分区[^4]。 #### 向分区表写入数据的方式对于已经创建好的分区表，可以通过多种方式进行数据填充。其中一种常见的方式是使用`LOAD DATA`命令直接导入文件到指定的分区目录下；另一种则是利用`INSERT INTO ... PARTITION (...) SELECT ... FROM ...`结构完成复杂场景下的数据迁移工作。 #### 使用分区表的优势分析采用分区策略不仅有助于加快查询速度，还便于日常维护以及实施长期存档计划等方面的工作。当面对海量记录集合时，合理设计分区方案往往能带来显著效益改进效果[^5]。