正则表达式，你不知道的先行断言与后行断言

weixin_44189802

于 2024-06-12 17:34:37 发布

阅读量2.5k

点赞数 55

文章标签：正则表达式

本文链接：https://blog.csdn.net/weixin_44189802/article/details/139632682

版权

正则表达式可以分为两个主要部分：标记和修饰符：

标记（Token）：是正则表达式的基本构建块，它们表示具体的字符文字、元字符、字符类别、重复限定符、边界匹配、分组和捕获等；
修饰符（Modifier）：是用来修改正则表达式的匹配行为的标志，例如忽略大小写、全局匹配、多行模式等。修饰符可以影响整个正则表达式的匹配结果；

例如. 正则表达式 \b\d/i，由 2 个标记（分别是 \b、\d）与 1 个修饰符（i）组成。

以上内容仅用作名词介绍，基础内容请自行 Google。

前瞻断言与后顾断言

前瞻断言（Lookahead）也称先行断言，后顾断言（Lookbehind）也称后行断言。

两者统称为环顾断言（Lookaround），都是零长度（Zero-length Assertions）断言。

什么是零长度断言

很多地方称为零宽度断言（Zero-width Assertions），我更倾向于使用零长度断言。

首先理解下什么是字符消费（Consume Character）：在正则表达式匹配的过程中，正则表达式引擎对输入文本进行逐个字符匹配，当匹配到一个字符时，它会将该字符视为已经“消费”了，因此该字符不会再被用于匹配其他部分。

而环顾断言与输入文本进行匹配后，会放弃匹配结果，不消费输入文本中的字符，只返回输入文本是否匹配的结果：是与否。

所以：

零长度：是指对输入文本的字符消费长度是零；
断言：是指仅对是否匹配进行判断，是一种断言操作；

没有什么是举个例子说明不了的，常规正则表达式 /f(o)o/（表达式里面的括号仅仅为了美观）与前瞻断言正则表达式 /f(?=o)o/ 进行对比：

输入文本 foo 与 /f(o)o/：

对正则表达式第一个标识 f 与输入文本第一个字符 f 进行匹配，匹配成功，消费掉输入文本第一个字符 f。
对正则表达式第二个标识 o 与输入文本第二个字符 o 进行匹配，匹配成功，消费掉输入文本第二个字符 o。
对正则表达式第三个标识 o 与输入文本第三个字符 o 进行匹配，匹配成功，消费掉输入文本第三个字符 o。
正则表达式与输入文本都结束，匹配结果：foo。

输入文本 foo 与 /f(?=o)o/：

对正则表达式第一个标识 f 与输入文本第一个字符 f 进行匹配，匹配成功，消费掉输入文本第一个字符 f。
正则表达式第二个标识为前瞻断言，匹配标识 o 与输入文本第二个字符 o 进行匹配，匹配成功，但不消费输入文本的字符 o。
由于输入文本并未消耗掉第二个字符，此时，对正则表达式第三个字符 o 与输入文本第二个字符 o 进行匹配，匹配成功，消费掉输入文本第二个字符 o。
输入文本还剩下一个字符 o，但正则表达式结束，匹配结果：fo。

前瞻，先行断言

前瞻断言用于在匹配模式中检查一个子字符串是否紧跟在另一个子字符串的前面，分为正向前瞻与负向前瞻。

正向前瞻语法：(?=pattern)

负向前瞻语法：(?!pattern)

正向（Positive）与负向（Nagetive）完全可以理解为是（True）与非（False）的逻辑判定。例如：

f(?=o)，只有是字符 o 前面的 f 会被匹配；
f(?!o)o，只有不是（非）字符 o 前面的 f 会被匹配；

前瞻断言本身的括号为非捕获组，如果希望对前瞻断言中的匹配内容进行捕获，需要在前瞻断言中使用括号，例如 (?=(pattern)) 的形式。

任何有效的正则表达式都可以在前瞻中使用（但是后顾不可以，稍后讲解）。

`q(?!u)` 与 `q[^u]` 的区别

同样是非字符 u 的匹配操作，有什么区别？

例如. 输入文本为 quit：

q(?!a)：仅仅会匹配字符 q，它的含义是仅仅期望匹配到那些后面没有跟着字符 a 的 q。

q[^a]：会匹配到 qu，它的含义是匹配字符 q 与后面非字符 a 的内容。

引擎匹配逻辑

首先，让我们来看一下引擎是如何将 q(?!u) 应用于文本 Iraq：

正则表达式第一个标记是 q，引擎会遍历文本，直到匹配到最后的 q。
下一个标记是前瞻断言，进入前瞻内部匹配标记 u，内部标记失败，前瞻断言结束。
但引擎注意到是负向前瞻操作，所以整个正则表达式的匹配却是成功的。
正则表达式与文本都结束，最后，正则表达式 q(?!u) 匹配成功并返回匹配项 q。

其次，还是这个正则表达式 q(?!u)，看一下引擎是如何应用于文本 quit：

同样 q 匹配 q 字符。
下一个标记是前瞻断言，进入前瞻内部匹配标记 u，内部的标记与文本第二个字符 u 匹配成功，前瞻断言结束。
常规正则表达式下，引擎会匹配文本第三个字符 i，但由于是前瞻断言，所以只记录成功与否并放弃匹配项，导致引擎回退到字符 u。
由于是负向前瞻，前瞻内部正则表达式匹配成功意味着整个正则表达式匹配失败，即该字符 q 不匹配，正则表达式将重新进行匹配。
直到文本结尾并未匹配到字符 q，最后，正则表达式 q(?!u) 匹配失败。

最后，我们使用正则表达式 q(?=u)i 观察下引擎是如何应用于文本 quit：

同样 q 匹配 q 字符。
正向前瞻内部标识 u 匹配文本第二个字符 u。
由于前瞻断言，只记录匹配成功并放弃匹配项，导致退出前瞻断言后引擎将从字符 i 回退到字符 u 进行下一个标识的匹配。
正则表达式下一个标记为 i，但当前匹配文本字符是 u，匹配失败，正则表达式将重新进行匹配。
直到文本结尾并未匹配到字符 q，最后，正则表达式 q(?=u)i 匹配失败。

后顾，后行断言

后顾断言用于在匹配模式中检查一个子字符串是否紧跟在另一个子字符串的后面，分为正向后顾与负向后顾。

正向后顾语法：(?<=pattern)

负向后顾语法：(?<!pattern)

例如：

(?<!a)b：会匹配非字符 a 后面的 b，它不会匹配 cab，但会匹配 bed 或 debt 中的 b（仅仅是字符 b）；
(?<=a)b：会匹配 cab 中的 b（仅仅是字符 b），而不会匹配 bed 或 debt；

`\b\w+(?<!s)\b` 与 `\b\w+[^s]\b` 的区别

如果希望找到所有不以字符 s 结尾的单词，需要使用 \b\w+(?<!s)\b，而不可以使用 \b\w+[^s]\b。对于输入文本 John's，前者会匹配 John，而后者则会匹配到 John'(包括单引号）。如果希望后者达到同样的效果，需要改写正则表达式为 \bw\w+[^s\W]\b。