Hive表的分桶查询

小刘新鲜事儿

已于 2022-03-29 21:42:25 修改

阅读量1.1k

点赞数

分类专栏： Hive 文章标签： hive

于 2020-10-15 16:37:26 首次发布

爱小刘，爱生活

本文链接：https://blog.csdn.net/weixin_45775873/article/details/109099224

版权

Hive 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

分桶查询：

hive (xiaoliu)> set mapreduce.job.reduces=3;
hive (xiaoliu)> set mapreduce.job.reduces;
mapreduce.job.reduces=3
hive (xiaoliu)> select * from student cluster by(sno);

在这里插入图片描述
查询结果导出到本地：

hive (xiaoliu)> insert overwrite local directory '/home/xiaokang/hive_load/aaa777'
              > select * from student cluster by(sno);
[xiaokang@hadoop ~]$ cd hive_load/aaa777/
[xiaokang@hadoop aaa777]$ ll
总用量 12
-rw-r--r-- 1 xiaokang hadoopenv 208 10月 15 16:10 000000_0
-rw-r--r-- 1 xiaokang hadoopenv 170 10月 15 16:10 000001_0
-rw-r--r-- 1 xiaokang hadoopenv 164 10月 15 16:10 000002_0
[xiaokang@hadoop aaa777]$ cat 000000_0 
\N\N\N\N\N
95001李勇男20CS
95004张立男19IS
95007易思玲女19MA
95010孔小涛男19CS
95013冯伟男21CS
95016钱国男21MA
95019邢小丽女19IS
95022郑明男20MA

根据学生编号（Sno）进行分桶，根据年龄（Sage）进行排序：

hive (xiaoliu)> select * from student distribute by(Sno) sort by(sage asc);

在这里插入图片描述
总结：
①cluster by（分桶且排序，分桶字段和排序字段必须一样）
②distribute by（分桶）+sort by(排序)（分桶字段和排序字段可以不一样）

说明：
1.order by会对输入做全局排序，因此只有一个reducer,会导致当输入规模较大时，需要较长计算时间
2.sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序，不保证全局有序。

hive (xiaoliu)> select * from student order by(sage);

在这里插入图片描述

小刘新鲜事儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive表的分桶查询

第十讲
复制链接

扫一扫

专栏目录