正则表达式最少必要知识一文搞定

最新推荐文章于 2022-05-17 11:36:27 发布

码农飞飞

最新推荐文章于 2022-05-17 11:36:27 发布

阅读量263

点赞数 3

分类专栏：脚本语言

本文链接：https://blog.csdn.net/yang1fei2/article/details/119297137

版权

脚本语言专栏收录该内容

7 篇文章 1 订阅

订阅专栏

原文链接

正则表达式作为特定领域里的一门编程语言，在字符串处理领域有着不可撼动的地位。通过使用正则表达式我们可以使用简单的语法实现字符串格式校验、字符串分割、字符串替换、字符串查找等复杂功能。正则表达式的出现极大的简化了对字符串复杂处理的流程。

这里对正则表达式的基本语法知识进行总结,方便大家快速掌握正则表达式。学了这些基本语法知识,99%的字符串复杂处理都不在话下,为什么不试试呢。

正则表达式的基本语法主要分为以下几个部分

1.元字符,类似于编程语言中的关键字

2.正则表达式的匹配模式

3.分组与引用

4.各种功能模式

5.各种定位锚点

6.各种元字符的转义使用

1.元字符

元字符就是指那些在正则表达式中具有特殊意义的专用字符,有点类似于编程语言中的关键字,是必须要要记住的。

1.用于匹配单个字符的元字符

. 匹配任意字符(换行除外)
\d 匹配任意数字  \D匹配任意非数字
\w 匹配任意字母数字下划线 \W 匹配任意非字母数字下划线
\s 匹配任意空白   \S匹配任意非空白符

2.用于匹配空白符的元字符

\r 回车符
\n 换行符
\f 换页符
\t 制表位
\v 垂直制表位
\s 任意空白符

3.表示数量的元字符

* 匹配0到多次
+ 匹配1到多次
? 匹配0到1次
{m} 出现m次
{m,} 至少出现m次
{m,n} 出现m到n次

4.表示匹配范围的元字符

| 或,如ab|bc 代表 ab或者bc
[...]多选一,括号中的任意单个元素
[a-z]匹配a到z之间的任意单个元素,包含a,z
[^...]取反,不能是括号中的任意单个元素

2.正则表达式的匹配模式

正则表达式主要有三种匹配模式:1.贪婪模式2.非贪婪模式3.独占模式。

贪婪模式就是尽可能的进行最长的匹配,非贪婪模式则会尽可能短的进行匹配,默认启动的是贪婪模式,要启动非贪婪模式需要在对应的量词后面加上修饰词?

ceshi*    贪婪匹配
ceshi*?   非贪婪匹配

不管是贪婪模式，还是非贪婪模式，都需要发生回溯才能完成相应的功能。但是在一些场景下，我们不需要回溯，匹配不上返回失败就好了，因此正则中还有另外一种模式，独占模式它类似贪婪匹配，但匹配过程不会发生回溯，因此在一些场合下性能会更好。

独占模式和贪婪模式很像，独占模式会尽可能多地去匹配，如果匹配失败就结束，不会进行回溯，这样的话就比较节省时间。具体的方法就是在量词后面加上加号(+)。python和Go目前不支持独占模式。

量词元字符后加+(英文加号)满足要求情况下，尽可能按照最长取匹配，不会发生回溯，匹配不上就失败。

^代表以正则开头
$代表以正则结尾

abb{1,3}ab贪婪模式
abb{1,3}?ab非贪婪模式
abb{1,3}+ab独占模式

3.分组和引用

正则表达式中通过()将一部分匹配内容整体视为一个分组,将其当成一个整体进行处理。在后续的匹配或者替换中对其进行引用。括号在正则表达式中最大的用途就是分组。

分组分为不保存子组和保存子组，保存子组是为了复用，而不保存子组只是单纯的被视为一个整体，可以提高程序的性能。括号里面使用?:来定义不保存子组

保存子组  (正则)        \d{8}(\d{3})?
不保存子组 (?:正则)     \d{8}(?:\d{3})?

正则表达式是通过括号的次序来对表达式进行分组的，在括号嵌套的情况下,我们可以通过左括号是第几个，来判定当前分组是第几个分组。

很多时候改变了括号的数量会影响分组的编号，因此我们可以使用命名分组对分组起一个名字，这样更容易查找，不容易出错。命名分组的格式如下

(?P<分组名>正则)

需要注意的是，刚刚提到的方式命名分组和前面一样，给这个分组分配一个编号，不过你可以使用名称，不用编号，实际上命名分组的编号已经分配好了。不过命名分组并不是所有语言都支持的。

在大部分场景下我们使用反斜杠+编号来进行分组的引用,但在部分场景下也可以使用$+编号来进行引用

\1 引用第一个分组
$1 引用第一个分组,notepad++H和JavaScript里面就是这种引用方式

正则表达式命名分组在不同语言下的引用记法不相同
        查找时         替换时
.NET   \k<name>      ${name}
PHP    (?P=name)      不支持
Python (?P=name)     \g<name>
Ruby   \k<name>      \k<name>

4.各种功能模式

这里介绍的功能模式和匹配模式不同,针对的领域不同,这里面介绍的模式类似于正则表达式的一个个功能开关,开启了这种功能模式,正则表达式能做更多的事情。主要分为:1.不区分大小写模式2.单行匹配模式3.多行匹配模式4.注释模式。

1.不区分大小写模式

当我们把模式修饰符(?i)放在整个正则表达式前面时,就表示整个正则表达式都是不区分大小写的。

(?i)正则表达式

(?i)(dog) \1  匹配重复的dog不区分字母大小写(第一个和第二个大小写不一致也能匹配上)
((?i)dog) \1 匹配不区分大小写(第一个和第二个大小写一致)

修饰符如果在括号内，作用范围是这个括号内的正则，而不是整个正则表达式；

2.单行匹配模式

单行匹配模式,在这种模式下(.)可以匹配包括换行符的任意字符。模式修饰符为(?s)

(?s).+

需要注意的是,JavasScript不支持此模式。

3.多行模式

多行模式的作用在于,使用^和$能匹配上每行的开头或者结尾,模式修饰符号为(?m)

(?m)^the | cat$

正则中还有\A和\z（Python中是\Z）这两个元字符容易混淆，\A仅匹配整个字符串的开始，\z仅匹配整个字符串的结束。

4.注释模式

注释模式的修饰符号是(?#comment),注释模式用来注释复杂的正则表达式方便大家的理解。

(\w+)(?#word) \1(?#word show again)

5.各种定位锚点

正则表达式中的锚点用于匹配位置，而不是文本内容本身

1.单词边界

在正则表达式中我们以\b来表示单词的边界。

\bdog 以dog开头的单词
dog\b 以dog结尾的单词
\bdog\b只能是dog的单词
常用单词匹配\b\w+\b

2.行的开始和结束

通过^和$来进行行位置界定^匹配行开头,$匹配行结尾

3.环视

环视就是要求匹配部分的前面或者后面满足(或不满足)某种规则.

(?<=Y)   左边是正则表达式Y对应的字符串
(?<!=Y)  左边不是正则表达式Y对应的字符串
(?=Y)    右边是正则表达式Y对应的字符串
(?!Y)    右边不是正则表示Y对应的字符串

尖括号代表左边，没有尖括号代表右边，感叹号是非的意思。

(?<!\d)[1-9]\d{5}(?!\d)左边非数字，右边非数字，中间是以1~9开头的数字(邮政编码)
(?<=\W)\w+(?=\W)左边非字符，右边也非字符的单词

环视中虽然也有括号，但不会保存成子组。保存成子组的一般是匹配到的文本内容，后续用于替换等操作，而环视是表示对文本左右环境的要求，即环视只匹配位置，不匹配文本内容。

6.各种元字符的转义使用

在编程过程中使用字符串的时候，当转义字符放在字符序列中，它将对它后续的几个字符进行替代并解释。通常，判定某字符是否为转义字符由上下文确定。转义字符即标志着转义序列开始的那个字符。

正则表达式也是通过反斜杠进行转义的

//元字符的转义
\*  \+  \?  \(  \)  \[ \] \{ \}

字符组中需要转义的三种情况

1.脱字符在中括号中，且在第一个位置需要转义

[^ab] 转义前代表非
[\^ab] 转义后代表普通字符

2.中划线在中括号中，且不在首尾位置

[a-z]代表范围
[-ac] 开头不需要转义
[ac-]结尾不需要转义
[a\-z]中间需要转义

3.右括号在中括号中，且不在首位

[]ab] 右括号不转义,在首位
[a]b]右括号不转义,不在首位
[a\]b] 转义后代表普通字符

一般来说如果我们要想将元字符表示成它字面上本来的意思，是需要对其进行转义的，但如果它们现在字符组中栝号里，可以不转义。

在字符数组中一般单字符的元字符比如，. * + ? ( )等, 它们都不再具有特殊含义，而是代表字符本身。但如果在中括号中出现\d或\w等双符号元字符时，他们还是元字符本身的含义。

上面这六点掌握了之后，正则表达式的基本内容就掌握的差不多了。剩下的就是多多练习了，和其它编程语言的使用相同,正则表达式的学习也是熟能生巧.

7.常用的正则表达式

下面总结了一下字符串匹配常用的正则表达式供大家参考和使用

匹配各种类型

[-+]?\d+(?:\.\d+)?   匹配正数、负数和小数
[1-9]\d*|0  匹配非负整数
-[1-9]\d*|0 匹配非正负数
-?\d+(?:\.\d+)?|\+?(?:\d+(?:\.\d+)? | \.\d+匹配浮点数

身份证号码

[1-9]\d{14}(\d\d[0-9Xx])?

邮政编码

(?<!\d)[1-9]\d{5}(?!\d)

中文字符

[\u4E00-\u9FFF]

匹配IPV4的地址

(?:1\d\d|2[0-4]\d|25[0-5]|0{0,2}\d)(?:\.(?:\.1\d\d|
|2[0-4]\d|25[0-5]|0?[1-9]\d|0{0,2}\d)){3}

匹配时间

2021-06-25
\d{4}-(?:1[0-2]|0?[1-9])-(?:[12]\d|3[01]|0?[1-9])
23:30
(?:2[0-3]|1\d|0?\d):(?:[1-5]\d|0?\d)

邮箱

[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+

码农飞飞

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
正则表达式最少必要知识一文搞定

正则表达式作为特定领域里的一门编程语言，在字符串处理领域有着不可撼动的地位。通过使用正则表达式我们可以使用简单的语法实现字符串格式校验、字符串分割、字符串替换、字符串查找等复杂功能。正则表达式的出现极大的简化了对字符串复杂处理的流程。这里对正则表达式的基本语法知识进行总结,方便大家快速掌握正则表达式。学了这些基本语法知识,99%的字符串复杂处理都不在话下,为什么不试试呢。正则表达式的基本语法主要分为以下几个部分1.元字符,类似于编程语言中的关键字2.正则表达式的匹配模式3.分组与引用
复制链接

扫一扫