HIVE、Oracle、SQL Server中都有开窗函数,对于去重,分组,排序有很重要的作用。
一、函数使用
1、语法:ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)
2、详解:
row_number() OVER (PARTITION BY COL1 ORDERBY COL2)表示根据COL1分组,在分组内部根据COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(该编号在组内是连续并且唯一的)。
3、场景描述:
在Hive或Oracle中employee表包括empid、depid、salary三个字段,根据部门分组,显示每个部门的工资等级。
1、原表查看:employee表及其内容如下所示:
create table employee (empid number(9) ,deptid number(9) ,salary decimal(10,2));
insert into employee values (1, 10, 5500.00);
insert into employee values (2, 10, 4500.00);
insert into employee values (3, 20, 1900.00);
insert into employee values (4, 20, 4800.00);
insert into employee values (5, 40, 6500.00);
insert into employee values (6, 40, 14500.00);
insert into employee values (7, 40, 44500.00);
insert into employee values (8, 50, 6500.00);
insert into employee values (9, 50, 7500.00);
为了测试同一部门有工资相同的等级,最终组内排序的情况,遂再插入一条数据。
insert into employee values (10, 40, 44500);
2、此处需理解row_number、rank、dense_rank三个函数的异同。
执行SQL。
row_number()函数:
SELECT e.empid,e.deptid,salary,row_number() over(partition by deptid order by salary desc) rank FROM EMPLOYEE e;
结果: 顺序排序
rank()函数:
select empid,deptid,salary,rank() over(partition by deptid order by salary desc) rank from EMPLOYEE;
结果:跳跃排序,如果有两个第一级别时,接下来是第三级别(比如并列第一,下来是第三)
dense_rank()函数:
select empid,deptid,salary,dense_rank() over(partition by deptid order by salary desc) rank from EMPLOYEE;
结果: 连续排序,如果有两个第一级别时,接下来是第二级别(如并列第一,接下来是第二)
二、由此总结三者区别:
row_number的用途非常广泛,排序最好用它,它会为查询出来的每一行记录生成一个序号,依次排序且不会重复,注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号。
rank函数用于返回结果集的分区内每行的排名,行的排名是相关行之前的排名数加一。简单来说rank函数就是对查询出来的记录进行排名,与row_number函数不同的是,rank函数考虑到了over子句中排序字段值相同的情况,如果使用rank函数来生成序号,over子句中排序字段值相同的序号是一样的,后面字段值不相同的序号将跳过相同的排名号排下一个,也就是相关行之前的排名数加一,可以理解为根据当前的记录数生成序号,后面的记录依此类推。
dense_rank函数的功能与rank函数类似,dense_rank函数在生成序号时是连续的,而rank函数生成的序号有可能不连续。dense_rank函数出现相同排名时,将不跳过相同排名号,rank值紧接上一次的rank值。在各个分组内,rank()是跳跃排序,有两个第一名时接下来就是第三名,dense_rank()是连续排序,有两个第一名时仍然跟着第二名。
三、注意
关于Parttion by:
Parttion by关键字是Oracle中分析性函数的一部分,用于给结果集进行分区。它和聚合函数Group by不同的地方在于它只是将原始数据进行名次排列,能够返回一个分组中的多条记录(记录数不变),而Group by是对原始数据进行聚合统计,一般只有一条反映统计值的结果(每组返回一条)。
TIPS:
使用rank over()的时候,空值是最大的,如果排序字段为null, 可能造成null字段排在最前面,影响排序结果。
可以这样: rank over(partition by course order by score desc nulls last)