Oracle 正则,开窗,行列转换

1.开窗函数 基本上在查询结果上添加窗口列

1.1 聚合函数开窗

基本格式:

        ..... 函数() over([partition by 分组列,...][order by 排序列 desc|asc][定位框架])

1,partition by  字段 相当于group by 字段 起到分组作用

2,order by 字段 即根据某个字段进行排序,默认包含该分组的所有行的数据,进行聚合或          排序操作


定位框架必须和ORDER BY 一起使用
定位框架 rows|ranges BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
        ROWS 按照行进行累计操作 
        RANGES 按照值进行累计操作
3,ROWS|RANGE 窗口子句,跟在 order by 子句后面用来限制当前行聚合或排序操作的范围


4,range和rows的区别:
     rows   是物理窗口,是哪一行就是哪一行,与当前行的值(order by key的key的值)无                    
            关,只与排序后的行号相关,就是我们常规理解的那样。
     range 是逻辑窗口,与当前行的值有关(order by key的key的值),在key上操作range

               范围   (查看示例代码2,3即可理解)
 

5,窗口子句的几个范围语法的格式:

          current row :当前行
          unbounded proceding  窗口上边界不设限(即区间的第一行)
          unbounded  following   窗口下边界不设限(即区间的最后一行)
          N proceding   当前行之前的N行,可以是数字也可以是能计算数字的表达式
          N  following   当前行之后的N行 ,同上 

聚合函数 over()可以不强制要求写partition by 和Order by

--创建表格
create  table  student(name varchar2(20),city varchar2(20),age  number,salary number );
--插入数据
INSERT INTO student(name,city,age,salary)
VALUES('Kebi','JiangSu',20,3000);
INSERT INTO student(name,city,age,salary)
VALUES('James','ChengDu',21,4000);
INSERT INTO student(name,city,age,salary)
VALUES('Denglun','BeiJing',22,3500);
INSERT INTO student(name,city,age,salary)
VALUES('Yangmi','London',21,2500);
INSERT INTO student(name,city,age,salary)
VALUES('Nana','NewYork',22,1000);
INSERT INTO student(name,city,age,salary)
VALUES('Sunli','BeiJing',20,3000);
INSERT INTO student(name,city,age,salary)
VALUES('Dengchao','London',22,1500);
INSERT INTO student(name,city,age,salary)
VALUES('Huge','JiangSu',20,2800);
INSERT INTO student(name,city,age,salary)
VALUES('Pengyuyan','BeiJing',24,4500);
INSERT INTO student(name,city,age,salary)
VALUES('Baoluo','London',25,8500);
INSERT INTO student(name,city,age,salary)
VALUES('Huting','ChengDu',25,3000);
INSERT INTO student(name,city,age,salary)
VALUES('Hurenxiang','JiangSu',23,2500);




查询从第一行到当前行的工资总和
 

select name,
       city,
       age,
       salary,
       sum(salary) over(order by salary rows between unbounded preceding and current row) 到当前行工资求和
from   student

over后面的括号中的unbounded  preceding表示第一行,current  row表示当前行。上面这段代码指的是首先将表中的数据按照salary进行排序,如果不指明是升序还是降序,默认的是升序。然后看到rows这个字段,说明计算是按照行进行的。就是计算unbounded  preceding(第一行)到current  row(当前行)的和。比如第一行的salary为1000,第二行的salary为1500,那么第一行到第二行的和为1000+1500=2500;同理第三行salary为2500,那么从第一行到第三行的和为1000+1500+2500=5000,以此类推......

查询从第一行到当前行的工资总和 

select fname,
       fcity,
       fage,
       fsalary,
       sum(fsalary) over(order by fsalary range between unbounded preceding and current row) 到当前行工资求和
  from t_person

range和rows,rows是按照行进行计算的,而range是按照范围进行计算的。这两种方式的不同点是处理并列数据的情况,上面第三行和第四行出现了两个2500,如果是rows就会在第三行显示1000+1500+2500=5000,第四行显示1000+1500+2500+2500=7500;如果是range就会在第三行显示1000+1500+2500+2500=7500,第四行显示1000+1500+2500+2500=7500,因为第三行和第四行中的salary是一样的,同时又是按照range进行计算的,所以从第一行开始r无法判断并列行中的当前行是哪一行,所以直接将并列的数相加

1.2 2.排名函数
      

注意:排名函数必须要配合order by一起使用
       row_number():忽略值重复的情况,直接现实一个连续的不重复的名次,相当于行号。
       rank():相同的值名次一样,但是整个排名是跳跃的,不连续
       dense_rank():相同的值相同的名次,并且排名连续。

select  name , city ,age , salary,
row_number()over ( order by salary) as row_number,   --按薪水依次排名
rank()over ( order by salary) as rank,               --按薪水排名,相同薪水并列
dense_rank()over ( order by salary) as dense_rank    --按薪水排名,相同薪水隔几个排名
from  student

每个员工比自己早入职的5个人和后入职的5个人的工资平均值,看看自己和他们之间的差距。

select EMPNO,job,sal,avg(sal) over (order by HIREDATE rows
    between 5 preceding and 5 following ) from EMP e;

查询大于自己部门平均工资的员工信息

select ENAME,DEPTNO,sal,JOB,RN from(
select e.*,avg(sal) over (partition by DEPTNO order by sal desc
    rows between unbounded preceding and unbounded following ) RN from EMP e)
where sal>RN;

排序类开窗函数

RANK--序列集排序,相等值的行排名相同

--如果排名中,有相同的值,那么排名并列存在

--有几个并列存在的人,下一个排名就会顺延几个整数

select ENAME,job,sal,rank()over (partition by DEPTNO order by sal desc) RK from EMP e

DENSE_RANK--稠密排名

计算序组中的行的排名,排名从1开始的连续整数

select ENAME,job,sal,dense_rank()over (partition by DEPTNO order by sal desc) RK from EMP e

ROW_NUMBER

--给你已定的排序组中,从1开始为每一行分配一个唯一的数字。

--不会有并列

select ENAME,job,sal,row_number()over (order by sal desc) RK from EMP e

ntile() 平均分组函数

--将30号部门的人,按照工资高低分为三个档

--将30号部门的人,按照工资高低分为三个档

select ENAME,job,sal,ntile(3) over (order by sal desc) RK_level from EMP e
where DEPTNO =30;

1.2..3 连续性问题怎么解决

1.ORACLE查询各个用户最大连续登陆天数

思路:对数据进行去重 ->对去重后的数据编号->计算差值 连续的差值相等 ->使用 Group by

分组 count(*)计算值

SELECT team,rn,COUNT(*) FROM(
				SELECT n.*,y-row_number()OVER(PARTITION BY team ORDER BY y ) rn FROM nba n) GROUP BY team,rn
				HAVING COUNT(*)>=2

1.3 lag lead 位移函数

 注意:必须要配合order by一起使用
       1.lag():下移函数
         语法:lag(列名,n[,空值替换值]) over(....order by ....)
       
       2.lead():上移函数
                  语法:lag(列名,n[,空值替换值]) over(....order by ....)
                 
        使用场景:计算环比和同比
        --将员工的工资进行下移一行
        SELECT e.*,LAG(sal,1) OVER(ORDER BY sal) FROM emp e;

        --计算每一个月的同比率和环比率
        SELECT MONTHS,sell,round((sell-同比)/同比*100,2)||'%' 同比率,
        ROUND((sell-环比)/环比*100,2)||'%' 环比率 from(
        SELECT s.*,LAG(sell,12) over(ORDER BY MONTHS) 同比,
        LAG(sell,1)OVER(ORDER BY MONTHS)环比 FROM sales s);

2.1 行列转换

横表是指多列记录同一类属性的不同取值,而纵表则是将这类属性及其对应的取值展开为多行记录

-- 创建横表 Employee_Projects     CSND-小小野猪
CREATE TABLE Employee_Projects (
    EmployeeID VARCHAR2(10),
    ProjectName VARCHAR2(30),
    Score NUMBER
);

-- 插入示例数据  CSND-小小野猪
INSERT INTO Employee_Projects VALUES ('Emp1', 'ProjectA', 85);
INSERT INTO Employee_Projects VALUES ('Emp1', 'ProjectB', 90);
INSERT INTO Employee_Projects VALUES ('Emp2', 'ProjectA', 92);
INSERT INTO Employee_Projects VALUES ('Emp3', 'ProjectA', 95);
INSERT INTO Employee_Projects VALUES ('Emp3', 'ProjectB', 88);
INSERT INTO Employee_Projects VALUES ('Emp3', 'ProjectC', 93);

COMMIT;

Oracle SQL从11g版本开始引入了Pivot关键字,用于将横表转换为纵表。其基本语法如下:

select * from EMPLOYEE_PROJECTS
pivot (max(Score) for ProjectName in ('ProjectA' A,'ProjectB' B,'ProjectC' C));
-- 方法2
select EmployeeID, max(case ProjectName when 'ProjectA' then Score else 0 end) A,
max(case ProjectName when 'ProjectB' then Score else 0 end) B,
max(case  ProjectName when 'ProjectC' then Score else 0 end) C
       from EMPLOYEE_PROJECTS group by EmployeeID
-- 方法3
select EmployeeID,max(decode(ProjectName,'ProjectA',Score,0)) A,
       max(decode(ProjectName,'ProjectB',Score,0)) B,
max(decode(ProjectName,'ProjectB',Score,0)) B
       from EMPLOYEE_PROJECTS group by EmployeeID;

列转行

with tmp1 as(
select EmployeeID, max(case ProjectName when 'ProjectA' then Score else 0 end) A,
max(case ProjectName when 'ProjectB' then Score else 0 end) B,
max(case  ProjectName when 'ProjectC' then Score else 0 end) C
       from EMPLOYEE_PROJECTS group by EmployeeID)
select * from tmp1 unpivot (score for Projectname in(A as 'ProjectA',B as 'ProjectB',C
     as 'ProjectC'));

3.正则

3.1 基本语法

(1)字符匹配

.  :匹配除了换行外的任意一个字符;
\d:匹配任何数字,相当于 [0-9];
\D:匹配任何非数字字符,相当于 [^0-9];
\w:匹配任何字母数字字符或下划线,相当于 [a-zA-Z0-9_];
\W:表示匹配任何非字母数字字符或下划线,相当于 [^a-zA-Z0-9_]。

(2)限定符

*:匹配前一个字符出现0次或多次;
+:匹配前一个字符出现1次或多次;
?:匹配前一个字符出现0次或1次;
{n}:匹配前一个字符出现n次;
{n,}:匹配前一个字符出现n次或更多;
{n,m}:匹配前一个字符出现n~m次。
'|' :指两项之间的一个选择。

e.g.  ^([a-z]+|[0-9]+)$:表示所有小写字母或数字组合成的字符串。

(3)边界匹配

^:匹配开始位置;
$:匹配结束位置;
\b:匹配单词边界,即单词的开头或结尾位置;
\B:匹配非单词边界,即不是单词的开头或结尾位置。
(4)分组和引用

():分组,标记一个子表达式的开始和结束位置;
\num:引用第num个子表达式,num从1开始。
(5)字符集合

[]:表示一组字符中的任意一个。
(6)转义符

\\:表示转义一个字符。
oracle正则表达式还支持一些高级语法,例如贪婪匹配、非贪婪匹配、零宽断言(zero-width  assertion)、后向引用(backreference)、捕获组等。

3.2 POSIX字符类

Oracle数据库中的POSIX字符类是一组特殊的字符类,用于在正则表达式中匹配特定的字符。POSIX字符类以 [: 开头,以 :] 结尾,中间包含一个或多个字符,代表特定的字符集合。POSIX字符类中的字符集合可以是预定义的,也可以是自定义的。

[[:alpha:]] 任何字母,等同于字符集合 [a-zA-Z];
[[:digit:]] 任何数字,等同于字符集合 [0-9];
[[:alnum:]] 任何字母和数字,等同于字符集合 [a-zA-Z0-9];
[[:space:]] 任何白字符;
[[:upper:]] 任何大写字母;
[[:lower:]] 任何小写字母;
[[:punct:]] 任何标点符号;
[[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]。
Oracle数据库中,POSIX字符类可以用于各种正则表达式相关的操作,如模式匹配、替换、分割等。由于Oracle数据库中的POSIX字符类与其他数据库或编程语言中的POSIX字符类可能略有不同,具体使用时需要查看相关文档。

3.3 正则表达式函数

3. 正则表达式函数
Oracle数据库提供了多种正则表达式函数,可以对文本数据进行匹配、替换等操作。

REGEXP_LIKE: 判断字符串是否匹配指定的正则表达式。
e.g. 查询员工名字以"S"开头,以"n"结尾的记录:

SELECT * FROM emp WHERE REGEXP_LIKE(emp_name, '^S.*n$');

REGEXP_REPLACE: 替换字符串中的子串。
e.g. 将字符串"12345"中连续的三个数字替换成星号"*",输出
“*45”:

SELECT REGEXP_REPLACE('12345', '\d{3}', '*') FROM dual;

REGEXP_SUBSTR: 提取字符串中匹配指定正则表达式的子串。
e.g. 从字符串"abc 123 def"中提取出连续的数字"123":

SELECT REGEXP_SUBSTR('abc 123 def', '\d+') FROM dual;

REGEXP_INSTR: 返回字符串中匹配指定正则表达式的子串的位置。
e.g. 返回字符串"1ab2cd3ef"中第一个连续数字的起始位置,即1

SELECT REGEXP_INSTR('1ab2cd3ef', '\d+') FROM dual;

正则函数:
	 1.regexp_like(列名,'正则表达式'):功能类似于like关键字,但是比like功能强大
	 
	 --查询员工的姓名以S开头的员工信息
	SELECT * FROM emp WHERE ename LIKE 'S%';
	SELECT * FROM emp WHERE regexp_like(ename,'^S');
	--查询姓名以’T‘结尾的员工
	SELECT * FROM emp WHERE regexp_like(ename,'T$');
	--查询员工的姓名第一个字母必须是O,并且名字的长度必须是5的大写字母。
	SELECT * FROM emp WHERE regexp_like(ename,'^[A-Z]O[A-Z]{3}$')
	--查询出来由有效手机号的行
	SELECT * FROM regexp_t WHERE regexp_like(str,'1[356789]\d{9}');
	--过滤出来有效的日期,前后的符号必须要一致
	SELECT * FROM REGEXP_t WHERE regexp_like(str,'^\d{4}(-|\.|\/)\d{2}\1\d{2}$')
	--过滤出来有效的域名
	SELECT * FROM regexp_t WHERE regexp_like(str,'^[a-z]{6}\.[a-z]{3}$');
		 
	 2.regexp_instr(字符串,'正则表达式'[,i,j]):功能和instr类似,用来在一个字符串中查找正则表达式所描述的子字符串出现的位置
	                 i:代表开始查找的位置
					 j:代表第几次出现
					 
		--查找有效手机号的位置
		SELECT str,regexp_instr(str,'1[356789]\d{9}') FROM regexp_t;
		--查找数字第二次出现的位置
		SELECT regexp_instr('qwqweq223dssdgsdf547hbfb','\d+',1,2) FROM dual;			 
					 
	 3.regexp_substr(字符串,'正则表达式'[,i,j]):从字符串中截取正则表达式描述的子字符串
		--截取字符串中有效的手机号
		SELECT str,regexp_substr(str,'1[356789]\d{9}') FROM regexp_t;

		--qqqq,wwww,rrrr,tttt
		--截取字符串中以逗号分开的第二部分数据
		SELECT regexp_substr('qqqq,wwww,rrrr,tttt','[^,]+',1,2) FROM dual;
	 
	 
	 4.regexp_replace(字符串,'正则表达式','新值'):将字符串中正则表达式描述的部分使用新的字符串替换。
	    --将字符串中的空白符替换为*
		SELECT regexp_replace('qwe   qwe qw      ewr erwe   wer','\s+','*') FROM dual;

		SELECT replace('qwe   qwe qw      ewr erwe   wer',' ','*') FROM dual;
		--将字符串中的手机号替换为****
		SELECT str,regexp_replace(str,'1[356789]\d{9}','****') FROM regexp_t;
		--将字符串中的手机号中间四位替换为****
		SELECT str,regexp_replace(str,'(1[356789]\d)(\d{4})(\d{4})','+86 \1****\3') FROM regexp_t;
	 
	 
	 5.regexp_count(字符串,'正则表达式'):统计正则表达式描述的字符串在字符串中出现的次数
		--统计逗号出现的次数
		SELECT regexp_count('qqqq,wwww,rrrr,tttt',',') FROM dual;
		--统计有效手机号出现的次数
		SELECT str,regexp_count(str,'1[356789]\d{9}') FROM regexp_t;

3.4 贪婪匹配 惰性匹配 零宽断言 后向引用 捕获组

贪婪匹配:  通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。比如这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。在正则表达式中,使用量词(如*+?{n,}等)时,默认会匹配尽可能多的字符。

惰性匹配: 也就是匹配尽可能少的字符。在能使整个匹配成功的前提下使用最少的重复,只要在它后面加上一个问号?即可

使用场景 :如果需要捕获的内容前后必须是特定内容,但又不捕获这些特定内容的时候,这个时候就可以使用零宽断言。

零宽断言: 零宽断言是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已。
正则表达式中常用的断言元字符为:^和$,而零宽断言就是其他用正则表达式来定义的功能类似的断言。

后向引用: 指把匹配出来的组引用到表达式本身其它地方,比如,在匹配HTML的标记时,我们匹配出一个<a>,我们要把匹配出来的a引用出来,用来找到</a>,这个时候就要用到反向引用。

“H.{4}”表示大写字母H的后面跟随了4个任意字符,其中”.”表示任意单个字符

  • 26
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值