HIVE、Oracle种row_number开窗函数去重、分组排序

最新推荐文章于 2024-01-18 17:39:45 发布

MrGrant

最新推荐文章于 2024-01-18 17:39:45 发布

阅读量2.4k

点赞数 2

分类专栏： Oracle 数据仓库数据库文章标签： Row_Number开窗函数

本文链接：https://blog.csdn.net/yangang1223/article/details/100921033

版权

数据库同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

Oracle

7 篇文章 0 订阅

订阅专栏

数据仓库

2 篇文章 0 订阅

订阅专栏

HIVE、Oracle、SQL Server中都有开窗函数，对于去重，分组，排序有很重要的作用。

一、函数使用

1、语法：ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

2、详解：

row_number() OVER (PARTITION BY COL1 ORDERBY COL2)表示根据COL1分组，在分组内部根据COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（该编号在组内是连续并且唯一的)。

3、场景描述：

在Hive或Oracle中employee表包括empid、depid、salary三个字段，根据部门分组，显示每个部门的工资等级。

1、原表查看：employee表及其内容如下所示：

create table employee (empid number(9) ,deptid number(9) ,salary decimal(10,2));

insert into employee values (1, 10, 5500.00);
insert into employee values (2, 10, 4500.00);
insert into employee values (3, 20, 1900.00);
insert into employee values (4, 20, 4800.00);
insert into employee values (5, 40, 6500.00);
insert into employee values (6, 40, 14500.00);
insert into employee values (7, 40, 44500.00);
insert into employee values (8, 50, 6500.00);
insert into employee values (9, 50, 7500.00);

在这里插入图片描述
为了测试同一部门有工资相同的等级，最终组内排序的情况，遂再插入一条数据。

insert into employee values (10, 40, 44500);

在这里插入图片描述

2、此处需理解row_number、rank、dense_rank三个函数的异同。
执行SQL。
row_number（）函数：

SELECT e.empid,e.deptid,salary,row_number() over(partition by deptid order by salary desc) rank FROM EMPLOYEE e;

结果： 顺序排序
在这里插入图片描述
rank()函数：

select empid,deptid,salary,rank() over(partition by deptid order by salary desc) rank from EMPLOYEE;

结果：跳跃排序，如果有两个第一级别时，接下来是第三级别（比如并列第一，下来是第三）
在这里插入图片描述
dense_rank()函数：

select empid,deptid,salary,dense_rank() over(partition by deptid order by salary desc) rank from EMPLOYEE;

结果：连续排序，如果有两个第一级别时，接下来是第二级别（如并列第一，接下来是第二）
在这里插入图片描述

二、由此总结三者区别：

row_number的用途非常广泛，排序最好用它，它会为查询出来的每一行记录生成一个序号，依次排序且不会重复，注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号。

rank函数用于返回结果集的分区内每行的排名，行的排名是相关行之前的排名数加一。简单来说rank函数就是对查询出来的记录进行排名，与row_number函数不同的是，rank函数考虑到了over子句中排序字段值相同的情况，如果使用rank函数来生成序号，over子句中排序字段值相同的序号是一样的，后面字段值不相同的序号将跳过相同的排名号排下一个，也就是相关行之前的排名数加一，可以理解为根据当前的记录数生成序号，后面的记录依此类推。

dense_rank函数的功能与rank函数类似，dense_rank函数在生成序号时是连续的，而rank函数生成的序号有可能不连续。dense_rank函数出现相同排名时，将不跳过相同排名号，rank值紧接上一次的rank值。在各个分组内，rank()是跳跃排序，有两个第一名时接下来就是第三名，dense_rank()是连续排序，有两个第一名时仍然跟着第二名。

三、注意

关于Parttion by：
　　Parttion by关键字是Oracle中分析性函数的一部分，用于给结果集进行分区。它和聚合函数Group by不同的地方在于它只是将原始数据进行名次排列，能够返回一个分组中的多条记录（记录数不变），而Group by是对原始数据进行聚合统计，一般只有一条反映统计值的结果（每组返回一条）。
　　TIPS：
　　使用rank over()的时候，空值是最大的，如果排序字段为null, 可能造成null字段排在最前面，影响排序结果。
　　可以这样： rank over(partition by course order by score desc nulls last)