hive分区排序row_number、rank和dense_rank,列转行collect_list和collect_set

表movies

原表movies文件——uid用户ID,iid电影ID,score评分,ts时间戳

select uid, iid, score, ts, row_number() over(partition by uid order by ts desc) as rk from movies;

1、row_number()

得到的结果以uid为分区,以 ts时间戳为降序排列,row_number()形成一列新的排名序列号,取名rk,以uid分区进行排名。

row_number()生成连续的序号(相同的元素序号不同)。

2、rank()

select uid, iid, score, ts, rank() over(partition by uid order by ts desc) as rk from movies;

此处是排序,排序的列里面有相同的值,他的排名会相同。

rank() 如果两个元素相同,则序号相同,并且跳过下一个序号。

3、dense_rank()

select uid, iid, score, ts, dense_rank() over(partition by uid order by ts desc) as rk from movies;

denes_rank()如果两个元素相等,则序号相同,不会跳过下个序号。

3、collect_list()

select a.uid,collect_list(a.iid) as iid_list 

from (select uid,iid,score,ts,row_number() over(partiton by uid order by ts decs) as rk from movies) a

where a.rk <= 10

group by a.uid;

collect_list 可将列转行,查找用户最近观看的10部电影。

4、collect_set()

collect_list和collect_set的区别:collect_set对结果去重。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值