当使用正则表达式搜索内容时,如果需要捕获的内容前后必须是特定内容,但又不捕获这些特定内容的时候,这个时候就可以使用零宽断言。
1.基本概念
零宽断言是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已。
正则表达式中常用的断言元字符为:^
和$
和\b
,而零宽断言就是其他用正则表达式来定义的功能类似的断言。这意味着它们只检查某个位置前后是否符合条件,而不会包括在最终的匹配结果中。
2.用法
目前常用的零宽断言主要有以下四种:
语法 | 名称 | 作用 |
---|---|---|
(?=exp) | 正向零宽先行断言 | 目标字符出现的位置的右边必须匹配到exp这个表达式 |
(?!exp) | 负向零宽先行断言 | 目标字符出现的位置的右边不能匹配到exp这个表达式 |
(?<=exp) | 正向零宽后发断言 | 目标字符出现的位置的左边必须匹配到exp这个表达式 |
(?<!exp) | 负向零宽后发断言 | 目标字符出现的位置的左边不能匹配到exp这个表达式 |
用法举例
- 正向零宽先行断言。其用法举例如下:
import re
#正向零宽先行断言
rule="[a-zA-Z]+(?=\d{3})" #匹配后面跟着三个数字的字母
s1='3ab_cd100ef1gh900'
s2='abd111efg111'
print(re.search(rule,s1))
print(re.match(rule,s1),re.match(rule,s2)) #从字符串的开头开始匹配,开头未匹配上所以返回None
其执行结果如下:
<re.Match object; span=(4, 6), match='cd'>
None <re.Match object; span=(0, 3), match='abd'>
- 负向零宽先行断言。其用法举例如下:
rule="[a-zA-Z]+(?!\d{3})" #匹配后面不跟着三个数字的字母
s1='3ab_cd100ef1gh900'
s2='abd111efg111'
print(re.search(rule,s1))
print(re.match(rule,s1),re.match(rule,s2)) #从字符串的开头开始匹配,开头未匹配上所以返回None
其返回结果如下:
<re.Match object; span=(1, 3), match='ab'>
None <re.Match object; span=(0, 2), match='ab'>
(2) 后发断言
注意,在使用后发断言时,自定义的断言必须有固定的宽度,比如上例的\d{3}。如果将上例中的\d{3}改为\d{2,}报如下错误: error: look-behind requires fixed-width pattern