hive 内置正则匹配函数 regexp_replace,regexp_extract的分组捕获

1. regexp_replace

先看下官网定义:

返回值函数格式解释

string

regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)

Returns the string resulting from replacing all substrings in INITIAL_STRING that match the java regular expression syntax defined in PATTERN with instances of REPLACEMENT. For example, regexp_replace("foobar", "oo|ar", "") returns 'fb.' Note that some care is necessary in using predefined character classes: using '\s' as the second argument will match the letter s; '\\s' is necessary to match whitespace, etc.

需要注意的是这里使用正则规定的符号时需要多加一个反斜杠 '\',比如想要匹配数据,就需要用'\\d'来匹配

在自己试验时发现该函数也可以做到分组捕获,使用'\$1'来匹配第一个分组,以此类推,直接看例子:

-- 分组捕获
select regexp_replace('123-456-789',"(\\d+)-(\\d+)-(\\d+)",'\$1+\$3+');

123+789


-- 匹配空白字符
select regexp_replace('hello world!',"\\s",'-');

hello-world!

 

2.regexp_extract

官方解释:

string

regexp_extract(string subject, string pattern, int index)

Returns the string extracted using the pattern. For example, regexp_extract('foothebar', 'foo(.*?)(bar)', 2) returns 'bar.' Note that some care is necessary in using predefined character classes: using '\s' as the second argument will match the letter s; '\\s' is necessary to match whitespace, etc. The 'index' parameter is the Java regex Matcher group() method index. See docs/api/java/util/regex/Matcher.html for more information on the 'index' or Java regex group() method.

 

重点也是在使用正则内置变量时需要多加一个反斜杠进行转义,比如匹配空白字符需要用'\\s';

最后一个入参index就是java正则匹配的group()方法的入参,入参只能是一个整数,也就是每次只能取到一个分组

看例子:

--获取匹配的第2个分组
select regexp_extract('123-456-789','(\\d+)-(\\d+)-(\\d+)',2);

456

 

Hive中,regexp_replace函数用于根据指定的正则表达式替换字符串。函数的语法为:regexp_replace(column, regular_expression, replace_string)。其中,column是要进行匹配的字符串,regular_expression是正则表达式replace_string是用来替换的字符串。举个例子,如果我们要将字符串'2022-05-04'中的数字替换成字母'A',可以使用以下语句: SELECT REGEXP_REPLACE('2022-05-04', '[0-9]', 'A') 这样就会将字符串中的数字全部替换成字母'A'。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Hive正则表达式替换函数 regexp_replace正则表达式解析函数 regexp_extract的用法总结](https://blog.csdn.net/TinyNasubi/article/details/102726927)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [hive中substr和regexp_replace的使用](https://blog.csdn.net/AnameJL/article/details/124566081)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值