Hive正则匹配查询基础大全(好文收藏)

本文介绍了正则表达式的基础知识,包括匹配符号、元字符和限定符的使用。在实际生产环境中,如Hive中,可以利用regexp_replace函数去除字符串中的异常不可见字符,或者通过正则表达式确保字段只包含特定字符类型,如英文、数字或中文。同时,文章展示了如何使用rlike和REGEXP函数检查字符串是否包含特定模式。
摘要由CSDN通过智能技术生成

前置知识

1.常见匹配符号

. :匹配所有单个字符,除了换行符(Linux 中换行是 \n,Windows 中换行是 \r\n)

^regex : 正则必须匹配字符串开头

regex$ :正则必须匹配字符串结尾

[abc] : 复选集定义,匹配字母 a 或 b 或 c

[abc][vz] :复选集定义,匹配字母 a 或 b 或 c,后面跟着 v 或 z

[^abc] :当插入符 ^ 在中括号中以第一个字符开始显示,则表示否定模式。此模式匹配所有字符,除了 a 或 b 或 c

[a-d1-7] :范围匹配,匹配字母 a 到 d 和数字从 1 到 7 之间,但不匹配 d1

XZ : 匹配 X 后直接跟着 Z

X|Z :匹配 X 或 Z

2 .元字符

元字符是一个预定义的字符。

\d :匹配一个数字,是 [0-9] 的简写

\D :匹配一个非数字,是 [^0-9] 的简写

\s :匹配一个空格,是 [ \t\n\x0b\r\f] 的简写

\S :匹配一个非空格

\w :匹配一个单词字符(大小写字母、数字、下划线),是 [a-zA-Z_0-9] 的简写

\W :匹配一个非单词字符(除了大小写字母、数字、下划线之外的字符),等同于 [^\w]

  1. 限定符

限定符定义了一个元素可以发生的频率。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值