大数据学习日志 - 分区表与分桶表

大数据学习日志 - 分区表与分桶表的区别

1. 分区表

1.1 分区意义

为避免全表扫描,按照用户指定字段进行分区,分区字段可以是日期、地域、种类等具有标识意义的字段。

1.2 本质

提供将表分离为多个文件目录的方法,不同分区代表不同文件夹,同一分区的数据存储在同一文件夹中。只需要根据分区值找对应文件夹,扫描文件夹下的文件即可,为避免全表扫描。注意,分区表的字段不能是表中已经存在的字段,因为分区字段最终也会以虚拟字段的形式展示在表结构上。

2. 分桶表

2.1 分桶意义

让数据分解为若干个部分易于管理,可以减少join(联表)查询时笛卡尔积的数量,提高抽样查询的效率。

2.2 本质

分桶表的字段必须是表中已有的字段,分桶表需要使用间接方式才能把数据加载进去:insert + select。在join的时候,针对join的字段进行分桶,可以提高join的效率,减少笛卡尔积数量。

3. 总结

区别

  • 分区表的字段不能是表中已有字段,分桶表字段必须是表中已有字段。
  • 分区表提高查询效率,分桶表提高联表效率
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值