python正则表达式基础(一)

最新推荐文章于 2024-05-07 11:52:09 发布

right 先生

最新推荐文章于 2024-05-07 11:52:09 发布

阅读量245

点赞数

本文链接：https://blog.csdn.net/weixin_44737199/article/details/89952033

版权

基本语法:元字符 metacharacter

代码	说明	举例
.	匹配除换行符外任意一个字符	.点号匹配后的结果是单个单个的元素
[abc]	匹配中括号内任意字母	[abc]匹配plain中的’a’, 有中括号,匹配后的结果是单个单个的元素
[^abc]	除了小写字母’a’,‘b’,'c’都可以匹配	[^abc]可以匹配plain中的’p’、‘l’、‘i’或者’n’ ,'a’不能被匹配, 有中括号,匹配后的结果是单个单个的元素
[a-z]	小写字母都可以匹配	匹配任何小写字母, 有中括号,匹配后的结果是单个单个的元素
[^a-z]	除了小写字母都可以匹配	有中括号,匹配后的结果是单个单个的元素
\b	匹配的字符是单词的边界(词头或词尾)	'\bc,'以’c’开头的’c’字符，例如cache,匹配的结果只是首字母的’c’字符。
\B	匹配的字符不能是单词边界(词头或词尾)	'\Bc,'除了首字母’c’外,后面的’c’字母都可以匹配，例如cache,匹配的结果是中间位置的’c’字符
\d	[0-9]匹配1位数字	匹配出来的元素是单个字符
\D	[^0-9]匹配1位非数字	匹配出来的元素是单个字符
\s	匹配1位空白字符	包括换行符\n、制表符t、空格换页符\f,回车符\r,纵向制表符\v
\S	匹配1位非空白字符
\w	匹配[a-zA-Z0-9_]，包括中文的字	说明,只匹配数字和字母
\W	匹配除了数字和字母之外的字符

代码	说明	举例
*	表示前面的正则表达式会重复0次或多次	e\w* 单词中e后面可以有非空白字符.号遇到空白字符就被阻断,属于贪婪模式*
+	表示前面的正则表达式重复至少1次	e\w+ 单词中e后面至少有一个非空白字符, 属于贪婪模式
?	表示前面的正则表达式会重复0次或1次	e\w? 单词中e后面至多有一个非空白字符
{n}	重复固定的n次	\w{1} 单词中e后面只能有一个非空白字符
{n,}	重复至少n次	e\w{1,} 等价 e\w+; e\w{0,} 等价 e\w* ;e\w{0,1} 等价 e\w?
{n,m}	重复n到m次	e\w{1,10} 单词中e后面至少1个，至多10个非空白字符

代码	说明	举例
x \| y	匹配x或者y	wood took foot food 使用 w\|food 或者 (w \|f)ood
捕获
(pattern)	使用小括号指定一个子表达式，也叫分组,捕获后会自动分配组号从1开始可以改变优先级
\数字	匹配对应的分组	例如:(very) \1[a-z]+\d+ \1\1，捕获的组group是very,可以捕获’‘very veryerwe123 veryvery’'中的very,共4个
(?:pattern)	如果仅仅为了改变优先级，就不需要捕获分组	(?:w\|f)ood; ‘industr(?:y\|ies)等价’industry\|industries’
(?exp) (?'name’exp)	命名分组捕获，但是可以通过name访问分组Python语法必须是(?Pexp)
零宽断言
(?=exp)	零宽度正预测先行断言断言exp一定在匹配的右边出现，也就是说断言后面一定跟个expf	(?=oo) f后面一定有oo出现
(?<=exp)	零宽度正回顾后发断言断言exp一定出现在匹配的左边出现，也就是说前面一定有个exp前缀	(?<=f)ood、(?<=t)ook分别匹配ood、ook，ook前一定有t出现
负向零宽断言
(?!exp)	零宽度负预测先行断言断言exp一定不会出现在右侧，也就是说断言后面一定不是exp	\d{3}(?!\d)匹配3位数字，断言3位数字后面一定不能是数字foo(?!d) foo后面一定不是d
(?<!exp)	零宽度负回顾后发断言断言exp一定不能出现在左侧，也就是说断言前面一定不能是exp	(?<!f)ood ood的左边一定不是f
注释
(?#comment)	注释	f(?=oo)(?#这个后断言不捕获

代码	说明	Python
IgnoreCase	匹配时忽略大小写	re.I re.IGNORECASE
Singleline	单行模式 . 可以匹配所有字符，包括\n	re.S re.DOTALL
Multiline	多行模式 ^ 行首、$ 行尾	re.M re.MULTILINE
IgnorePatternWhitespace	忽略表达式中的空白字符，如果要使用空白字符用转义，#可以用来做注释	re.X re.VERBOSE

单行模式：
- . 号可以匹配所有字符，包括换行符
- ^ 表示整个字符串的开头，$整个字符串的结尾
多行模式：
- . 可以匹配除了换行符之外的字符，多行不影响.点号
- ^ 表示行首，$行尾，只不过这里的行是每一个
默认模式：
- 可以看做待匹配的文本是一行，不能看做多行，. 点号不能匹配换行符，^和$表示行首和行尾，而行首行尾就是整个字符串的开头和结尾
- 单行模式：基本和默认模式一样，只是.点号终于可以匹配任意一个字符包括换行符，这时所有文本就是一个长长的只有一行的字符串。^就是这一行字符串的行首，$就是这一行的行尾。
- 多行模式：重新定义了行的概念，但不影响.点号的行为，^和$还是行首行尾的意思，只不过因为多行模式可以识别换行符了。"开始"指的是\n后紧接着下一个字符；"结束"指的是\n前的字符，注意最后一行结尾可以没有\n

简单讲，单行模式只影响.点号行为，多行模式重新定义行影响了^和$注意：  
注意字符串中看不见的换行符,\r\n会影响e$的测试，$只能匹配\n

关注