hive中的全排序

最新推荐文章于 2024-10-02 00:04:29 发布

qwurey

最新推荐文章于 2024-10-02 00:04:29 发布

阅读量1w

点赞数 1

分类专栏： Hive 文章标签： hive排序全排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeruby/article/details/23046255

版权

Hive 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见hadoop简单实现全排序

现在学了hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？

事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的个数都是1了，结果自然全排序！

这也违背了充分利用分布式计算进行海量数据排序的初衷，效率低下。

那么hive又提供了一个可供选择的方式：sort by

它会保证每个reducer的输出文件是有序的（其实是废话，每个reducer的输出当然是有序的！），要想实现全排序，还得加一个order by的过程，就是对sort by的reduce输出结果再进行一次排序。

所以：

要想用hive实现全排序：

要么用order by，但这样默认了reducer个数为1，效率低下。

要么用sort by+order by，sort by过程可以设置reducer个数（n），order by过程用n个reducer的输出文件进行一次全排序，得到最终的结果。

（个人理解，如有错误请不吝赐教，感谢！）

注：

（1）对于order by，sort by：

我们可以使用limit进行限制返回的行数，从而实现抓出数据的top N的情形。

（2）对于distribute by：

sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。hive的distribute by就派上用场了：

From table  
select year, temperature  
distribute by year  
sort by year asc, temperature desc;

上面实现了局部排序，且规定了：根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中（文件下），可以看出，distribute by经常与sort by一起使用。

需要注意的是，hive要求distribute by 要写在sort by之前。

（3）对于cluster by：

简而言之：cluster by column=distribute by column+sort by column （注意，都是针对column列，且采用默认ASC）

即对于上面例子：

From table  
select year, temperature  
cluster by year;

就等于：

From table  
select year, temperature  
distribute by year  
sort by year;

当然这失去了按照气温排序的要求。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。