正则表达式作为特定领域里的一门编程语言,在字符串处理领域有着不可撼动的地位。通过使用正则表达式我们可以使用简单的语法实现字符串格式校验、字符串分割、字符串替换、字符串查找等复杂功能。正则表达式的出现极大的简化了对字符串复杂处理的流程。
这里对正则表达式的基本语法知识进行总结,方便大家快速掌握正则表达式。学了这些基本语法知识,99%的字符串复杂处理都不在话下,为什么不试试呢。
正则表达式的基本语法主要分为以下几个部分
1.元字符,类似于编程语言中的关键字
2.正则表达式的匹配模式
3.分组与引用
4.各种功能模式
5.各种定位锚点
6.各种元字符的转义使用
1.元字符
元字符就是指那些在正则表达式中具有特殊意义的专用字符,有点类似于编程语言中的关键字,是必须要要记住的。
1.用于匹配单个字符的元字符
. 匹配任意字符(换行除外)
\d 匹配任意数字 \D匹配任意非数字
\w 匹配任意字母数字下划线 \W 匹配任意非字母数字下划线
\s 匹配任意空白 \S匹配任意非空白符
2.用于匹配空白符的元字符
\r 回车符
\n 换行符
\f 换页符
\t 制表位
\v 垂直制表位
\s 任意空白符
3.表示数量的元字符
* 匹配0到多次
+ 匹配1到多次
? 匹配0到1次
{m} 出现m次
{m,} 至少出现m次
{m,n} 出现m到n次
4.表示匹配范围的元字符
| 或,如ab|bc 代表 ab或者bc
[...]多选一,括号中的任意单个元素
[a-z]匹配a到z之间的任意单个元素,包含a,z
[^...]取反,不能是括号中的任意单个元素
2.正则表达式的匹配模式
正则表达式主要有三种匹配模式:1.贪婪模式2.非贪婪模式3.独占模式。
贪婪模式就是尽可能的进行最长的匹配,非贪婪模式则会尽可能短的进行匹配,默认启动的是贪婪模式,要启动非贪婪模式需要在对应的量词后面加上修饰词?
ceshi* 贪婪匹配
ceshi*? 非贪婪匹配
不管是贪婪模式,还是非贪婪模式,都需要发生回溯才能完成相应的功能。但是在一些场景下,我们不需要回溯,匹配不上返回失败就好了,因此正则中还有另外一种模式,独占模式它类似贪婪匹配,但匹配过程不会发生回溯,因此在一些场合下性能会更好。
独占模式和贪婪模式很像,独占模式会尽可能多地去匹配,如果匹配失败就结束,不会进行回溯,这样的话就比较节省时间。具体的方法就是在量词后面加上加号(+)。python和Go目前不支持独占模式。
量词元字符后加+(英文加号)满足要求情况下,尽可能按照最长取匹配,不会发生回溯,匹配不上就失败。
^代表以正则开头
$代表以正则结尾
abb{1,3}ab贪婪模式
abb{1,3}?ab非贪婪模式
abb{1,3}+ab独占模式
3.分组和引用
正则表达式中通过()将一部分匹配内容整体视为一个分组,将其当成一个整体进行处理。在后续的匹配或者替换中对其进行引用。括号在正则表达式中最大的用途就是分组。
分组分为不保存子组和保存子组,保存子组是为了复用,而不保存子组只是单纯的被视为一个整体,可以提高程序的性能。括号里面使用?:来定义不保存子组
保存子组 (正则) \d{8}(\d{3})?
不保存子组 (?:正则) \d{8}(?:\d{3})?
正则表达式是通过括号的次序来对表达式进行分组的,在括号嵌套的情况下,我们可以通过左括号是第几个,来判定当前分组是第几个分组。
很多时候改变了括号的数量会影响分组的编号,因此我们可以使用命名分组对分组起一个名字,这样更容易查找,不容易出错。命名分组的格式如下
(?P<分组名>正则)
需要注意的是,刚刚提到的方式命名分组和前面一样,给这个分组分配一个编号,不过你可以使用名称,不用编号,实际上命名分组的编号已经分配好了。不过命名分组并不是所有语言都支持的。
在大部分场景下我们使用反斜杠+编号来进行分组的引用,但在部分场景下也可以使用$+编号来进行引用
\1 引用第一个分组
$1 引用第一个分组,notepad++H和JavaScript里面就是这种引用方式
正则表达式命名分组在不同语言下的引用记法不相同
查找时 替换时
.NET \k<name> ${name}
PHP (?P=name) 不支持
Python (?P=name) \g<name>
Ruby \k<name> \k<name>
4.各种功能模式
这里介绍的功能模式和匹配模式不同,针对的领域不同,这里面介绍的模式类似于正则表达式的一个个功能开关,开启了这种功能模式,正则表达式能做更多的事情。主要分为:1.不区分大小写模式2.单行匹配模式3.多行匹配模式4.注释模式。
1.不区分大小写模式
当我们把模式修饰符(?i)放在整个正则表达式前面时,就表示整个正则表达式都是不区分大小写的。
(?i)正则表达式
(?i)(dog) \1 匹配重复的dog不区分字母大小写(第一个和第二个大小写不一致也能匹配上)
((?i)dog) \1 匹配不区分大小写(第一个和第二个大小写一致)
修饰符如果在括号内,作用范围是这个括号内的正则,而不是整个正则表达式;
2.单行匹配模式
单行匹配模式,在这种模式下(.)可以匹配包括换行符的任意字符。模式修饰符为(?s)
(?s).+
需要注意的是,JavasScript不支持此模式。
3.多行模式
多行模式的作用在于,使用^和$能匹配上每行的开头或者结尾,模式修饰符号为(?m)
(?m)^the | cat$
正则中还有\A和\z(Python中是\Z)这两个元字符容易混淆,\A仅匹配整个字符串的开始,\z仅匹配整个字符串的结束。
4.注释模式
注释模式的修饰符号是(?#comment),注释模式用来注释复杂的正则表达式方便大家的理解。
(\w+)(?#word) \1(?#word show again)
5.各种定位锚点
正则表达式中的锚点用于匹配位置,而不是文本内容本身
1.单词边界
在正则表达式中我们以\b来表示单词的边界。
\bdog 以dog开头的单词
dog\b 以dog结尾的单词
\bdog\b只能是dog的单词
常用单词匹配\b\w+\b
2.行的开始和结束
通过^和$来进行行位置界定^匹配行开头,$匹配行结尾
3.环视
环视就是要求匹配部分的前面或者后面满足(或不满足)某种规则.
(?<=Y) 左边是正则表达式Y对应的字符串
(?<!=Y) 左边不是正则表达式Y对应的字符串
(?=Y) 右边是正则表达式Y对应的字符串
(?!Y) 右边不是正则表示Y对应的字符串
尖括号代表左边,没有尖括号代表右边,感叹号是非的意思。
(?<!\d)[1-9]\d{5}(?!\d)左边非数字,右边非数字,中间是以1~9开头的数字(邮政编码)
(?<=\W)\w+(?=\W)左边非字符,右边也非字符的单词
环视中虽然也有括号,但不会保存成子组。保存成子组的一般是匹配到的文本内容,后续用于替换等操作,而环视是表示对文本左右环境的要求,即环视只匹配位置,不匹配文本内容。
6.各种元字符的转义使用
在编程过程中使用字符串的时候,当转义字符放在字符序列中,它将对它后续的几个字符进行替代并解释。通常,判定某字符是否为转义字符由上下文确定。转义字符即标志着转义序列开始的那个字符。
正则表达式也是通过反斜杠进行转义的
//元字符的转义
\* \+ \? \( \) \[ \] \{ \}
字符组中需要转义的三种情况
1.脱字符在中括号中,且在第一个位置需要转义
[^ab] 转义前代表非
[\^ab] 转义后代表普通字符
2.中划线在中括号中,且不在首尾位置
[a-z]代表范围
[-ac] 开头不需要转义
[ac-]结尾不需要转义
[a\-z]中间需要转义
3.右括号在中括号中,且不在首位
[]ab] 右括号不转义,在首位
[a]b]右括号不转义,不在首位
[a\]b] 转义后代表普通字符
一般来说如果我们要想将元字符表示成它字面上本来的意思,是需要对其进行转义的,但如果它们现在字符组中栝号里,可以不转义。
在字符数组中一般单字符的元字符比如,. * + ? ( )等, 它们都不再具有特殊含义,而是代表字符本身。但如果在中括号中出现\d或\w等双符号元字符时,他们还是元字符本身的含义。
上面这六点掌握了之后,正则表达式的基本内容就掌握的差不多了。剩下的就是多多练习了,和其它编程语言的使用相同,正则表达式的学习也是熟能生巧.
7.常用的正则表达式
下面总结了一下字符串匹配常用的正则表达式供大家参考和使用
匹配各种类型
[-+]?\d+(?:\.\d+)? 匹配正数、负数和小数
[1-9]\d*|0 匹配非负整数
-[1-9]\d*|0 匹配非正负数
-?\d+(?:\.\d+)?|\+?(?:\d+(?:\.\d+)? | \.\d+匹配浮点数
身份证号码
[1-9]\d{14}(\d\d[0-9Xx])?
邮政编码
(?<!\d)[1-9]\d{5}(?!\d)
中文字符
[\u4E00-\u9FFF]
匹配IPV4的地址
(?:1\d\d|2[0-4]\d|25[0-5]|0{0,2}\d)(?:\.(?:\.1\d\d|
|2[0-4]\d|25[0-5]|0?[1-9]\d|0{0,2}\d)){3}
匹配时间
2021-06-25
\d{4}-(?:1[0-2]|0?[1-9])-(?:[12]\d|3[01]|0?[1-9])
23:30
(?:2[0-3]|1\d|0?\d):(?:[1-5]\d|0?\d)
邮箱
[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+