【Hive-优化】Hive的优化方式二(分桶优化)

文章介绍了Hive中使用分桶表进行数据采样和优化查询效率的方法,包括MapJoin、Bucket-MapJoin和SMB-Join三种JOIN优化策略,以及相应的配置设置。MapJoin适用于大小表JOIN,Bucket-MapJoin要求小表是大表的桶数倍,SMB-Join则用于大表间的JOIN,减少shuffle数据量。
摘要由CSDN通过智能技术生成

1)为什么使用分桶表

1.1.数据采样

在真实的开发环境中,表中的数据量比较大,如果用原有的表,我们开发和自测的过程会比较慢,严重影响系统的开发进度。

因此可以采用分桶表的方式进行采样,但是分桶表进行采样的结果并不是真正准确的结果,而是一个比较具有代表性的结果。

语法:

select * from table tablesample(bucket x out of y on column)

x:从哪个桶开始采样
Y:用表中抽样的比例,用建表时的总桶数÷y=抽取多少个桶的数据
x的值必须小于等于y的值,不然会报异常

例如:

table总bucket数为6tablesampl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值