大数据学习(十三)hive正则表达式

一、hive支持正则的函数

regexp:用法类似rlike,比如在where里面判断 A regexp B

regexp_extract:regexp_extract(string subject, string pattern, int index),将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符

regexp_replace: regexp_replace(string A, string B, string C),将字符串A中的符合java正则表达式B的部分替换为C。注意有些情况下要使用转义字符

二、正则表达式怎么写

1、元字符匹配

字符匹配的字符
\d从0-9的任一数字
\D任一非数字字符
\w任一单词字符,包括A-Z,a-z,0-9和下划线
\W任一非单词字符
\s任一空白字符,包括制表符,换行符,回车符,换页符和垂直制表符
\S任一非空白字符
.任一字符

2、边界集合

字符 l描述
^每一行的开头,单行模式下等价于字符串的开头
$每一行的结尾,单行模式下等价于字符串的结尾

3、重复次数集合

贪婪模式会获取尽可能多的字符,而非贪婪模式会获取尽可能少的字符

贪婪非贪婪描述
**?零次或多次
???零次或一次
++?一次或多次
{m}{m}?正好m次,贪婪与非贪婪一样的
{m,}{m,}?至少m次
{m, n}{m, n}?最少m最多n次

四.组合操作符

组合操作符描述
[…]方括号内任意字符或字符集合中的一个
[^…]方括号内^为第一个字符时,表示与其后所有字符都不匹配的字符
( )圆括号,将复杂表达式当作单一表达式来处理
|
abc和。直接将字符连在一起写

五、匹配操作符

匹配操作符描述
\n即后向引用。n为1~9,标识由圆括号里取得的匹配字符串。方向是从左到右在regexp_replace函数中,允许在模式表达式和替换表达式中都使用\n

六、转义操作符

转义操作符描述
\将其后紧跟着的操作字符当作普通字符看待。例如 abcdef 可以匹配 abdef或abcccdef等,但无法匹配 abcdef,后者需要abc*def才能匹配

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值