63- 大数据-hive 查询数据七：order by 和 sort by 语句

最新推荐文章于 2023-05-16 00:42:43 发布

大富的大数据之路

最新推荐文章于 2023-05-16 00:42:43 发布

阅读量360

点赞数

分类专栏： bigdata-hive 文章标签：大数据 hive 查询 order by sort by

本文链接：https://blog.csdn.net/yaoyelinger0912/article/details/96034160

版权

bigdata-hive 专栏收录该内容

75 篇文章 1 订阅

订阅专栏

order by 对查询结果集进行全局排序，所有的数据通过一个reducer进行处理，多个reducer无法保证全局有序。导致数据较大规模时，消耗较长计算时间

sort by ，在每一个reducer中对数据进行排序，如果用sort排序，且设置 mapred.reduce.tasks>1，则sort by 只会保证每个reducer的输出有序，不保证全局有序，执行一个局部排序过程，这样可以提高后面的全局排序的效率

sort by 不同于 order by ,他不受属性 hive.maped.mode影响，
sort by 的数据只能保证在同一个reduce中的数据按照指定字段排序，使用sort by 执行执行的reduce格式(通过属性
set mapred.reduce.tasks=n指定)，对输出的数据再执行归并排序

reducer个数等于1时，几乎一样。大于1时，输出结果的排序不一样

select * from st1 order by id;
select * from st1 sort by id;

order by 操作可能会导致运行时间过长，如果属性hive.mapred.mode的值是strict，
hive要求这样的语句必须加有limit语句进行限制。默认情况下，这个属性的值是nonstrict，
就是不会有这样的限制。属性为 strict时，select * from st1 order by id;会执行错误

select id,sum(money) from t group by id 这条语句只用一个job就ok，
select id,sum(money) from t group by id order by id 如果加上order by 就会多一个job进行排序操作

案例：sort by：
1> 设置属性 set mapred.reduce.tasks=2;
2> select * from st1 sort by id;
3> 观察结果：Stage-Stage-1: Map: 1 Reduce: 2
一个map端分发给了两个reduce端，且每个reduce内部是倒序

大富的大数据之路

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
63- 大数据-hive 查询数据七：order by 和 sort by 语句

order by 对查询结果集进行全局排序，所有的数据通过一个reducer进行处理，多个reducer无法保证全局有序。导致数据较大规模时，消耗较长计算时间sort by ，在每一个reducer中对数据进行排序，如果用sort排序，且设置 mapred.reduce.tasks>1，则sort by 只会保证每个reducer的输出有序，不保证全局有序，执行一个局部排序过程，这样可以提...
复制链接

扫一扫