1、正则规则明细
/做为转意,即通常在"/"后面的字符不按原来意义解释,如/b/匹配字符"b"
^ 匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a"
$ 匹配一个输入或一行的结尾,/a$/匹配"An a",而不匹配"an A"
* 匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa
+ 匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa
? 匹配前面元字符0次或1次,/ba*/将匹配b,ba
(x) 匹配x保存x在名为$1...$9的变量中
x|y 匹配x或y
{n} 精确匹配n次
{n,} 匹配n次以上
{n,m} 匹配n-m次
[xyz] 字符集(character set),匹配这个集合中的任一一个字符(或元字符)
[^xyz] 不匹配这个集合中的任何一个字符
[/b] 匹配一个退格符
/b 匹配一个单词的边界
/B 匹配一个单词的非边界
/cX 这儿,X是一个控制符,//cM/匹配Ctrl-M
/d 匹配一个字数字符,//d/ = /[0-9]/
/D 匹配一个非字数字符,//D/ = /[^0-9]/
/n 匹配一个换行符
/r 匹配一个回车符
/s 匹配一个空白字符,包括/n,/r,/f,/t,/v等
/S 匹配一个非空白字符,等于/[^/n/f/r/t/v]/
/t 匹配一个制表符
/v 匹配一个重直制表符
/w 匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[/w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
/W 匹配一个不可以组成单词的字符,如[/W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。
'( )' 标记一个子表达式的开始和结束位置。
2、regexp_extract函数(抽取一个匹配了正则表达式的组)
regexp_extract(str, regexp[, idx])
extracts a group that matches regexp
3、实例:
如:
1) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ;
得到的结果为:0代表匹配整个group正则表达式
itde
2) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',1) ;
得到的结果为:1代表匹配第一个group
i
3) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',2) ;
得到的结果为:2代表匹配第二个group
td
4) select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) from default.dual;
得到的结果为:
abc
此外,当前的语句只有2个()表达式 所以当idx>=3的时候 就会报错
5)
原始字符串
{
"serveHonourInfo": "[{\"benefits\":[{\"name\":\"接送机50元立减券\",\"count\":1,\"businessLine\":\"TRIP_PUBLIC\"}],\"stageInfos\":{\"init\":{\"status\":1}},\"extMap\":{\"delayTime\":0}}]"
}
SELECT *
FROM t.s_t
WHERE ds = MAX_PT("t.s_t")
AND GET_JSON_OBJECT(attributes, "$.serveHonourInfo") IS NOT NULL
AND regexp_extract(GET_JSON_OBJECT(attributes, "$.serveHonourInfo"),'(stageInfos)(.*)(init)(.*)(status\\\\":)([0-9])',6) IN (1,2)
AND to_char(gmt_create, 'yyyyMMdd') >= '20211027'