hive中分区和分桶的一些简单理解

一、Hive分区。
     是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹

比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。

常用的分区字段都是按照时间来区分。

#创建分区表
create table t1 (
id int comment '编号',
name string comment '姓名',
age int comment' 年龄'
)
partitioned by (pdate string)
row format delimited fields terminated by '\001'
;

常用命令:
查看分区数据:
select * from t1 where pdate='2020-01-01';

查看有哪些分区:
show partitions t1;

向分区插入数据:
insert overwrite table t1 partition(pdate='2020-01-01')
select * from xxx

使用场景:

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区或切片的方法减少每一次扫描总数据量,这种做法可以显著地改善性能。

数据会依照单个或多个列进行分区,通常按照时间、地域或者是商业维度进行分区。比如vido表&#

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值