正则表达式高级用法

CX19970

已于 2023-02-16 19:36:28 修改

阅读量142

点赞数 1

分类专栏：正则表达式文章标签：正则表达式 linux

于 2020-03-27 23:19:30 首次发布

本文链接：https://blog.csdn.net/weixin_44413515/article/details/105153041

版权

正则表达式专栏收录该内容

2 篇文章 0 订阅

订阅专栏

非捕获型括号"(?:…)"

"(…)“用于分组和捕获，提供反向引用；”(?:…)"表示只分组不捕获，不提供反向引用。

环视

环视结构不匹配任何字符，只匹配文本中的特定位置，即：环视不会“占用”字符。

类型	正则式	匹配成功的条件
肯定逆序环视	(?<=…)	子表达式能够匹配左侧文本（自右向左）
否定逆序环视	(?<!..)	子表达式不能匹配左侧文本（自右向左）
肯定顺序环视	(?=…)	子表达式能够匹配右侧文本（自左向右）
否定顺序环视	(?!..)	子表达式不能匹配右侧文本（自左向右）

区分基本正则式与扩展正则式

正则式特性	BREs	EREs
+和?量词	不支持	支持
区间量词	\{min,max\}	{min,max}
分组	\(…\)	(…)
反向引用	\1到\9
多选结构	不支持	支持

模式修饰符"(?modifier)"

设定匹配模式，如：i，不区分大小写。

模式作用范围"(?modifier:…)"

限制所设定的匹配模块范围。

注释"(?#…)“或”#"

(?#…)常用于不支持宽松排列的情况。

固化分组"(?>…)"

通过固化分组匹配到的内容，它永远不会“交还”已经匹配的任何内容。即使后续匹配失败。

忽略优先量词"*?“、”+?“、”??“、”{min,max}?"

匹配尽可能少的内容，只需要满足下限，匹配就能成功。相当于是反贪婪匹配模式。

占有优先量词"*+“、”++“、”?+“、”{min,max}+"

匹配内容上遵从贪婪匹配，但匹配成功后不会“交还”已经匹配的任何内容。类似于贪婪匹配和固化分组的结合。

正则匹配引擎

NFA：表达式主导
DFA：文本主导
NFA与DFA匹配最直观的差异在于处理多选结构的区别，NFA将多选结构作为独立的正则式处理，相当于线性匹配方式，DFA将多选结构潜在的可能做并行处理，相当于并行匹配方式。
NFA匹配速度与正则式相关，DFA匹配速度与正则式无关，对于复杂的正则式如果使用NFA引擎匹配，要做好正则式优化工作，否则可能长时间甚至不能成功匹配。
NFA在能力上较DFA具有一定优势，如：反向引用，环视，占有优先量词，固化分组。
现在许多工具已经糅合了NFA和DFA。