HQL四种排序

最新推荐文章于 2023-06-15 22:15:00 发布

Der Kaiser

最新推荐文章于 2023-06-15 22:15:00 发布

阅读量889

点赞数

分类专栏：数据库文章标签： hive

本文链接：https://blog.csdn.net/xjc_xxy/article/details/115922935

版权

数据库专栏收录该内容

5 篇文章 0 订阅

订阅专栏

order by
sort by
distribute by
cluster by

每个MapReduce内部排序（Sort By）

Sort By：每个Reducer内部进行排序，对全局结果集来说不是排序。
1．设置reduce个数
hive (default)> set mapreduce.job.reduces=3;
2．查看设置reduce个数
hive (default)> set mapreduce.job.reduces;
3．根据部门编号降序查看员工信息
hive (default)> select * from emp sort by empno desc;
4．将查询结果导入到文件中（按照部门编号降序排序）
hive (default)> insert overwrite local directory ‘/opt/module/datas/sortby-result’
select * from emp sort by deptno desc;

分区排序（Distribute By）

Distribute By：类似MR中partition，进行分区，结合sort by使用。
注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。
对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。
案例实操：
（1）先按照部门编号分区，再按照员工编号降序排序。
hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory ‘/opt/module/datas/distribute-result’ select * from emp distribute by deptno sort by empno desc;

Cluster By

当distribute by和sorts by字段相同时，可以使用cluster by方式。
cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。
1）以下两种写法等价
hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;
注意：按照部门编号分区，不一定就是固定死的数值，可以是20号和30号部门分到一个分区里面去。

Der Kaiser

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HQL四种排序

order bysort bydistribute bycluster by每个MapReduce内部排序（Sort By）Sort By：每个Reducer内部进行排序，对全局结果集来说不是排序。1．设置reduce个数hive (default)> set mapreduce.job.reduces=3;2．查看设置reduce个数hive (default)> set mapreduce.job.reduces;3．根据部门编号降序查看员工信息hive (defau
复制链接

扫一扫