4.匹配分组
字符 | 功能 |
---|---|
(ab) | 将括号中字符作为一个分组 |
\num | 引用分组num匹配到的字符串 |
(?P< name >) | 分组起别名 |
(?P=name) | 引用别名为name分组匹配到的字符串 |
还有个特殊的‘ | ’是用来 匹配左右任意一个字符串
例1:
‘ | ’
需求:匹配0~100之间的数字
例2:
‘ () ’
需求:匹配出163,126,qq邮箱之间的数字
例3:
’ \ ‘
需求:匹配出s
例4:
’ \number ‘
需求:匹配出< html >
re模块的高级应用
search
需求:匹配出文章阅读的次数
findall
需求:统计出python,c++,c相应文章阅读的次数
sub 将匹配的数据进行替换
需求:将匹配到的阅读次数加 1
方法一:
方法二:
split 根据匹配进行切割字符串,并返回一个列表
需求:切割字符串“info:xiaoZhang 33 shandong’’
总结:在re模块的高级用法里面功能比较强大的是’ findall ‘和’ sub ‘
再啰嗦一句:
Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;
非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。
s=“This is a number 234-235-22-423”>>> r=re.match(".+(\d±\d±\d±\d+)",s)
r.group(1)
‘4-235-22-423’>>> r=re.match(".+?(\d±\d±\d±\d+)",s)r.group(1)
‘234-235-22-423’
正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。
解决方式:
非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。
re.match(r"aa(\d+)",“aa2343ddd”).group(1)
‘2343’>>> re.match(r"aa(\d+?)",“aa2343ddd”).group(1)
‘2’>>> re.match(r"aa(\d+)ddd",“aa2343ddd”).group(1)
‘2343’>>> re.match(r"aa(\d+?)ddd",“aa2343ddd”).group(1)
‘2343’