HIVE、Oracle种row_number开窗函数去重、分组排序

HIVE、Oracle、SQL Server中都有开窗函数,对于去重,分组,排序有很重要的作用。

一、函数使用

1、语法:ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

2、详解

row_number() OVER (PARTITION BY COL1 ORDERBY COL2)表示根据COL1分组,在分组内部根据COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(该编号在组内是连续并且唯一的)。

3、场景描述

在Hive或Oracle中employee表包括empid、depid、salary三个字段,根据部门分组,显示每个部门的工资等级。

1、原表查看:employee表及其内容如下所示:

create table employee (empid number(9) ,deptid number(9) ,salary decimal(10,2));

insert into employee values (1, 10, 5500.00);
insert into employee values (2, 10, 4500.00);
insert into employee values (3, 20, 1900.00);
insert into employee values (4, 20, 4800.00);
insert into employee values (5, 40, 6500.00);
insert into employee values (6, 40, 14500.00);
insert into employee values (7, 40, 44500.00);
insert into employee values (8, 50, 6500.00);
insert into employee values (9, 50, 7500.00);

在这里插入图片描述
为了测试同一部门有工资相同的等级,最终组内排序的情况,遂再插入一条数据。

insert into employee values (10, 40, 44500);

在这里插入图片描述

2、此处需理解row_number、rank、dense_rank三个函数的异同。
执行SQL。
row_number()函数:

SELECT e.empid,e.deptid,salary,row_number() over(partition by deptid order by salary desc) rank FROM EMPLOYEE e;

结果: 顺序排序
在这里插入图片描述
rank()函数:

select empid,deptid,salary,rank() over(partition by deptid order by salary desc) rank from EMPLOYEE;

结果:跳跃排序,如果有两个第一级别时,接下来是第三级别(比如并列第一,下来是第三)
在这里插入图片描述
dense_rank()函数:

select empid,deptid,salary,dense_rank() over(partition by deptid order by salary desc) rank from EMPLOYEE;

结果: 连续排序,如果有两个第一级别时,接下来是第二级别(如并列第一,接下来是第二)
在这里插入图片描述

二、由此总结三者区别:

row_number的用途非常广泛,排序最好用它,它会为查询出来的每一行记录生成一个序号,依次排序且不会重复,注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号。

rank函数用于返回结果集的分区内每行的排名,行的排名是相关行之前的排名数加一。简单来说rank函数就是对查询出来的记录进行排名,与row_number函数不同的是,rank函数考虑到了over子句中排序字段值相同的情况,如果使用rank函数来生成序号,over子句中排序字段值相同的序号是一样的,后面字段值不相同的序号将跳过相同的排名号排下一个,也就是相关行之前的排名数加一,可以理解为根据当前的记录数生成序号,后面的记录依此类推。

dense_rank函数的功能与rank函数类似,dense_rank函数在生成序号时是连续的,而rank函数生成的序号有可能不连续。dense_rank函数出现相同排名时,将不跳过相同排名号,rank值紧接上一次的rank值。在各个分组内,rank()是跳跃排序,有两个第一名时接下来就是第三名,dense_rank()是连续排序,有两个第一名时仍然跟着第二名。

三、注意

关于Parttion by:
  Parttion by关键字是Oracle中分析性函数的一部分,用于给结果集进行分区。它和聚合函数Group by不同的地方在于它只是将原始数据进行名次排列,能够返回一个分组中的多条记录(记录数不变),而Group by是对原始数据进行聚合统计,一般只有一条反映统计值的结果(每组返回一条)。
  TIPS:
  使用rank over()的时候,空值是最大的,如果排序字段为null, 可能造成null字段排在最前面,影响排序结果。
  可以这样: rank over(partition by course order by score desc nulls last)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值