Hive 分区与分桶

十九546

已于 2024-06-06 10:08:21 修改

阅读量388

点赞数 10

文章标签： hive hadoop 数据仓库

于 2024-06-06 09:28:09 首次发布

本文链接：https://blog.csdn.net/weixin_66092125/article/details/139487765

版权

Hive数据分区：
分区是Hive中重要的优化手段之一，它可以在HDFS中将表的数据划分为更小的部分。每个分区对应HDFS中的一个目录。通过使用分区，可以减少需要扫描的数据量，从而提高查询性能。

创建分区表的语法如下：

向分区表中加载数据：

   LOAD DATA LOCAL INPATH '/path/to/data.txt' 
   INTO TABLE partitioned_table 
   PARTITION (partition_column='2021-01-01');

查询分区表：

   SELECT * FROM partitioned_table WHERE partition_column='2021-01-01';

Hive数据分桶：
分桶是Hive中的另一个优化手段，它可以将表的数据划分为更小的、更可管理的部分（称为桶）。分桶通过对某一列的值进行哈希，然后根据哈希值将数据分布到不同的桶中。

创建分桶表的语法如下：

   CREATE TABLE bucketed_table (column1 INT, column2 STRING) 
   CLUSTERED BY (column1) INTO 10 BUCKETS;

向分桶表中加载数据（需要设置Hive的配置参数）：

   SET hive.enforce.bucketing = true;

   INSERT OVERWRITE TABLE bucketed_table 
   SELECT column1, column2 FROM some_other_table;

查询分桶表：

   SELECT * FROM bucketed_table WHERE column1=10;

注意：在实际使用中，分区和分桶可以根据数据的特性和查询需求灵活使用。分区通常用于处理高基数的离散值，如日期；分桶通常用于处理低基数的离散值或连续值。

关注