hive入门详解(五)之分桶表及抽样查询

胡子球手

于 2020-06-19 08:12:41 发布

阅读量1.6k

点赞数 1

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/weixin_44955363/article/details/106842331

版权

本文详细介绍了Hive中的分桶表概念，包括数据存储和抽样查询两部分。分桶表将数据文件按特定规则划分到不同桶中，便于管理和查询。在创建分桶表后，通过`TABLESAMPLE`语句实现数据抽样，以获取大表的代表性样本，优化查询效率。抽样时，`BUCKET x OUT OF y`语句中的y必须是总桶数的倍数或因子，用于决定抽样比例。

摘要由CSDN通过智能技术生成

分桶

1.分桶表数据存储
2.分桶抽样查询

`1.分桶表数据存储`

1.1，分区针对的是数据的存储路径；分桶针对的是数据文件。
（1）创建分桶表

create table stu_buck(id int, name string)
 clustered by(id) into 4 buckets row format delimited fields terminated by '\t'

最低0.47元/天解锁文章

胡子球手

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive入门详解(五)之分桶表及抽样查询

分桶1.分桶表数据存储2.分桶抽样查询1.分桶表数据存储1.1，分区针对的是数据的存储路径；分桶针对的是数据文件。（1）创建分桶表create table stu_buck(id int, name string) clustered by(id) into 4 buckets row format delimited fields terminated by '\t'; （2）查看表结构hive (default)> desc formatted stu_buck;需要设置
复制链接

扫一扫

专栏目录