看懂正则表达式入门

最新推荐文章于 2022-06-13 07:30:00 发布

_小明同学__

最新推荐文章于 2022-06-13 07:30:00 发布

阅读量298

点赞数

分类专栏：正则表达式文章标签：正则表达式元字符量词懒惰限定符模式修饰符

本文链接：https://blog.csdn.net/zhimeng567/article/details/78229819

版权

正则表达式专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 元字符

“^” ：匹配行或者字符串起始位置

“$”：匹配行或者字符串结束位置

“\b”：不消耗任何字符只匹配一个位置

“\d”：匹配数字

“\w”：匹配字母，数字，下划线

“\s”：匹配空格

“.”：匹配除了换行符以外的任何字符

“[a-z]”：匹配括号内的字符

2 反义

“\W” ：匹配不是字母，数字，下划线

“\s”：匹配不是空格

“[^a-z]”：匹配不是括号内的字符

将小写字母改为大写就是了

3 量词

贪婪(贪心) 如"*"字符贪婪量词会首先匹配整个字符串，尝试匹配时，它会选定尽可能多的内容，如果失败则回退一个字符，然后再次尝试回退的过程就叫做回溯，它会每次回退一个字符，直到找到匹配的内容或者没有字符可以回退。相比下面两种贪婪量词对资源的消耗是最大的

懒惰(勉强) 如 "?" 懒惰量词使用另一种方式匹配，它从目标的起始位置开始尝试匹配，每次检查一个字符，并寻找它要匹配的内容，如此循环直到字符结尾处

占有如"+" 占有量词会覆盖事个目标字符串，然后尝试寻找匹配内容，但它只尝试一次，不会回溯

"*"(贪婪) 重复零次或多次例如"aaaaaaaa" 匹配字符串中所有的a 正则： "a*" 会出到所有的字符"a"

"+"(懒惰) 重复一次或多次例如"aaaaaaaa" 匹配字符串中所有的a 正则： "a+" 会取到字符中所有的a字符， "a+"与"a*"不同在于"+"至少是一次而"*" 可以是0次

"?"(占有) 重复零次或一次例如"aaaaaaaa" 匹配字符串中的a 正则： "a?" 只会匹配一次，也就是结果只是单个字符a

"{n}" 重复n次例如从"aaaaaaaa" 匹配字符串的a 并重复3次正则： "a{3}" 结果就是取到3个a字符 "aaa"

"{n,m}" 重复n到m次例如正则 "a{3,4}" 将a重复匹配3次或者4次所以供匹配的字符可以是三个"aaa"也可以是四个"aaaa" 正则都可以匹配到

"{n,}" 重复n次或更多次与{n,m}不同之处就在于匹配的次数将没有上限，但至少要重复n次如正则"a{3,}" a至少要重复3次

4 懒惰限定符

"*?" 重复任意次，但尽可能少重复

如 "acbacb" 正则 "a.*?b" 只会取到第一个"acb" 原本可以全部取到但加了限定符后，只会匹配尽可能少的字符，而"acbacb"最少字符的结果就是"acb"

"+?" 重复1次或更多次，但尽可能少重复与上面一样，只是至少要重复1次

"??" 重复0次或1次，但尽可能少重复如 "aaacb" 正则 "a.??b" 只会取到最后的三个字符"acb"

"{n,m}?" 重复n到m次，但尽可能少重复如 "aaaaaaaa" 正则 "a{0,m}" 因为最少是0次所以取到结果为空

"{n,}?" 重复n次以上，但尽可能少重复如 "aaaaaaa" 正则 "a{1,}" 最少是1次所以取到结果为 "a"

5捕获分组

先了解在正则中捕获分组的概念，其实就是一个括号内的内容如 "(\d)\d" 而"(\d)" 这就是一个捕获分组，可以对捕获分组进行后向引用 (如果后而有相同的内容则可以直接引用前面定义的捕获组，以简化表达式) 如(\d)\d\1 这里的"\1"就是对"(\d)"的后向引用

那捕获分组有什么用呢看个例子就知道了

如 "good good" 正则 \b(\w+)\b\s\1\b 所以这里的"\1"所捕获到的字符也是与(\w+)一样的"good"，为了让组名更有意义，组名是可以自定义名字的

"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就可以自定义组名了而要后向引用组时要记得写成 "\k<name>";自定义组名后,捕获组中匹配到的值就会保存在定义的组名里

下面列出捕获分组常有的用法

"(exp)" 匹配exp,并捕获文本到自动命名的组里

"(?<name>exp)" 匹配exp,并捕获文本到名称为name的组里

"(?:exp)" 匹配exp,不捕获匹配的文本，也不给此分组分配组号

以下为零宽断言

"(?=exp)" 匹配exp前面的位置

　　如 "How are you doing" 正则"(?<txt>.+(?=ing))" 这里取ing前所有的字符，并定义了一个捕获分组名字为 "txt" 而"txt"这个组里的值为"How are you do";

"(?<=exp)" 匹配exp后面的位置

　　如 "How are you doing" 正则"(?<txt>(?<=How).+)" 这里取"How"之后所有的字符，并定义了一个捕获分组名字为 "txt" 而"txt"这个组里的值为" are you doing";

"(?!exp)" 匹配后面跟的不是exp的位置

　　如 "123abc" 正则 "\d{3}(?!\d)"匹配3位数字后非数字的结果

"(?<!exp)" 匹配前面不是exp的位置

　　如 "abc123 " 正则 "(?<![0-9])123" 匹配"123"前面是非数字的结果也可写成"(?!<\d)123"

6 模式修饰符

i ( PCRE_CASELESS)

如果设置了这个修饰符，模式中的字母会进行大小写不敏感匹配。

m ( PCRE_MULTILINE)

默认情况下，PCRE 认为目标字符串是由单行字符组成的(然而实际上它可能会包含多行)， "行首"元字符 (^) 仅匹配字符串的开始位置，而"行末"元字符 ($) 仅匹配字符串末尾，或者最后的换行符(除非设置了 D 修饰符)。这个行为和 perl 相同。当这个修饰符设置之后，“行首”和“行末”就会匹配目标字符串中任意换行符之前或之后，另外，还分别匹配目标字符串的最开始和最末尾位置。这等同于 perl 的 /m 修饰符。如果目标字符串中没有 "\n" 字符，或者模式中没有出现 ^ 或 $，设置这个修饰符不产生任何影响。

s ( PCRE_DOTALL)

如果设置了这个修饰符，模式中的点号元字符匹配所有字符，包含换行符。如果没有这个修饰符，点号不匹配换行符。这个修饰符等同于 perl 中的/s修饰符。一个取反字符类比如 [^a] 总是匹配换行符，而不依赖于这个修饰符的设置。

x ( PCRE_EXTENDED)

如果设置了这个修饰符，模式中的没有经过转义的或不在字符类中的空白数据字符总会被忽略，并且位于一个未转义的字符类外部的#字符和下一个换行符之间的字符也被忽略。这个修饰符等同于 perl 中的 /x 修饰符，使被编译模式中可以包含注释。注意：这仅用于数据字符。空白字符还是不能在模式的特殊字符序列中出现，比如序列 (?( 引入了一个条件子组(译注: 这种语法定义的特殊字符序列中如果出现空白字符会导致编译错误。比如(?(就会导致错误)。

A ( PCRE_ANCHORED)

如果设置了这个修饰符，模式被强制为"锚定"模式，也就是说约束匹配使其仅从目标字符串的开始位置搜索。这个效果同样可以使用适当的模式构造出来，并且这也是 perl 种实现这种模式的唯一途径。

D ( PCRE_DOLLAR_ENDONLY)

如果这个修饰符被设置，模式中的元字符美元符号仅仅匹配目标字符串的末尾。如果这个修饰符没有设置，当字符串以一个换行符结尾时，美元符号还会匹配该换行符(但不会匹配之前的任何换行符)。如果设置了修饰符m，这个修饰符被忽略. 在 perl 中没有与此修饰符等同的修饰符。

当一个模式需要多次使用的时候，为了得到匹配速度的提升，值得花费一些时间对其进行一些额外的分析。如果设置了这个修饰符，这个额外的分析就会执行。当前，这种对一个模式的分析仅仅适用于非锚定模式的匹配(即没有单独的固定开始字符)。

U ( PCRE_UNGREEDY)

这个修饰符逆转了量词的"贪婪"模式。使量词默认为非贪婪的，通过量词后紧跟? 的方式可以使其成为贪婪的。这和 perl 是不兼容的。它同样可以使用模式内修饰符设置 (?U)进行设置，或者在量词后以问号标记其非贪婪(比如.*?)。

Note:

在非贪婪模式，通常不能匹配超过 pcre.backtrack_limit 的字符。

X ( PCRE_EXTRA)

这个修饰符打开了 PCRE 与 perl 不兼容的附件功能。模式中的任意反斜线后就 ingen 一个没有特殊含义的字符都会导致一个错误，以此保留这些字符以保证向后兼容性。默认情况下，在 perl 中，反斜线紧跟一个没有特殊含义的字符被认为是该字符的原文。当前没有其他特性由这个修饰符控制。

J ( PCRE_INFO_JCHANGED)

内部选项设置(?J)修改本地的PCRE_DUPNAMES选项。允许子组重名， (译注：只能通过内部选项设置，外部的 /J 设置会产生错误。)

u ( PCRE_UTF8)

此修正符打开一个与 perl 不兼容的附加功能。模式字符串被认为是utf-8的. 这个修饰符从 unix 版php 4.1.0 或更高，win32版 php 4.2.3 开始可用。 php 4.3.5 开始检查模式的 utf-8 合法性。

_小明同学__

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
看懂正则表达式入门

1 元字符“^” ：匹配行或者字符串起始位置“$”：匹配行或者字符串结束位置“\b”：不消耗任何字符只匹配一个位置“\d”：匹配数字“\w”：匹配字母，数字，下划线“\s”：匹配空格“.”：匹配除了换行符以外的任何字符“[a-z]”：匹配括号内的字符2 反义“\W” ：匹配不是字母，数字，下划线“\s”：匹配不是空格“[^a-z]”：匹配不是括号
复制链接

扫一扫