hive的分组取前n个值

最新推荐文章于 2022-11-03 11:44:43 发布

wxwzy738

最新推荐文章于 2022-11-03 11:44:43 发布

阅读量8.3k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxwzy738/article/details/20482573

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

比如说有两个班级，A班和B班

Class score

A 10

A 7

A 9

B 5

B 6

B 3

所谓的开窗函数的开窗就是把所有的A和所有的B往两个地方进行处理，像是送到两个窗口进行处理。

Hadoop会把所有A和所有B两块数据进行处理，保证每块数据都在同一个reduce上面进行处理，为什么会这样呢，因为使用了分区函数partition by class

不过两块数据也可能在同一个reduce上面执行，也可能不会

这里的作用就是partition by这个函数做到的

合起来的一个字段就当作一个分区进行处理，然后对该分区的asso_access_num进行排序处理，然后每个分区进行排序后再合在起来，然后rownum进行依次的判断，

第一个是A则rownum=1

第二个是A则rownum=2

第三个是A则rownum=3

第四个是B，因为class变了，所以rownum又变为1，rownum=1

第五个是B则rownum=2，依次类推

如果你要得到前面两条的话，就写rownum<=2即可，那么rownum=3的这条数据就不会进行获取

可以参考：

http://msdn.microsoft.com/zh-cn/library/ms186734.aspx

http://www.cnblogs.com/85538649/archive/2011/08/13/2137277.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive的分组取前n个值

比如说有两个班级，A班和B班Class scoreA 10A 7A 9B 5B 6B 3所谓的开窗函数的开窗就是把所有的A和所有的B往两个地方进行处理，像是送到两个窗口进行处理。 Hadoop会把所有A和所有B两块数据进行处理，保证每块数据都在同一个reduce上面进行处理，为什么会这
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。