Hive 中 分桶表 和 抽样查询

本文介绍了Hive中的分桶表概念及其在数据查询优化中的作用,特别是对于join操作的提升。通过创建分桶表并使用insert into方式导入数据,可以实现数据的有序分布。此外,还讲解了抽样查询的原理,如按照表总bucket数的倍数或因子确定抽样比例,从而有效减少扫描的数据量。
摘要由CSDN通过智能技术生成

我们知道 分区表呢 是将数据分文件夹管理 , 减少数据扫描的文件范围 直接从对应文件夹中读取数据 ,
但如果有时候分区表中的数据也大的时候,我们读取数据的时候,表之间需要 join 的 时候 会判断所有数据 进行读取扫描 ,效率不高

这时候我们可以把分区表中的数据进行分割 就是HIve中的分桶表
分桶表 是 对join 对查询的优化 将数据按照指定的字段的规则分文件

1 创建普通表 导入数据
2 创建分桶表
3 开启分桶功能
4 使用insert into的方式导入数据 到 分桶表中

1001 ss1
1002 ss2
1003 ss3
1004 ss4
1005 ss5
1006 ss6
1007 ss7
1008 ss8
1009 ss9
1010 ss10
1011 ss11
1012 ss12
1013 ss13
1014 ss14
1015 ss15
1016 ss16

1) 创建普通表 导入数据

create table tb_stu(
id int, 
name string)
row format delimited fields terminated by '
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值