- 语法
- 分区:partitioned by col
- 分桶:clustered by col into N buckets
- 实现
- 分区:基于HDFS划分目录,不同的分区的数据存储在不同的分区目录中
- 分桶:基于HDFS划分文件,不同分桶的数据存储在不同的文件中
- 字段
- 分区:分区字段是逻辑字段,不存在HDFS的文件中中,以目录的形式体现的
- 分桶:分桶字段是物理字段,存在HDFS的文件中
- 场景
- 分区:为了提高分区的查询效率,避免文件过滤,直接通过目录实现过滤
- 分桶:为了实现行级事务操作、解决Reduce Join实现分桶Join
分区表和分桶表的区别
于 2024-06-08 08:55:23 首次发布