python 正则2.0 re模块的高级应用

4.匹配分组

字符功能
(ab)将括号中字符作为一个分组
\num引用分组num匹配到的字符串
(?P< name >)分组起别名
(?P=name)引用别名为name分组匹配到的字符串

还有个特殊的‘ | ’是用来 匹配左右任意一个字符串

例1:
‘ | ’
需求:匹配0~100之间的数字
在这里插入图片描述
例2:
‘ () ’
需求:匹配出163,126,qq邮箱之间的数字
在这里插入图片描述
例3:
’ \ ‘
需求:匹配出s
在这里插入图片描述
例4:
’ \number ‘
需求:匹配出< html >
在这里插入图片描述

re模块的高级应用

search
需求:匹配出文章阅读的次数
在这里插入图片描述
findall
需求:统计出python,c++,c相应文章阅读的次数
在这里插入图片描述
sub 将匹配的数据进行替换
需求:将匹配到的阅读次数加 1
方法一:
在这里插入图片描述
方法二:
在这里插入图片描述
split 根据匹配进行切割字符串,并返回一个列表
需求:切割字符串“info:xiaoZhang 33 shandong’’
在这里插入图片描述

总结:在re模块的高级用法里面功能比较强大的是’ findall ‘和’ sub ‘

再啰嗦一句
Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;
非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。

s=“This is a number 234-235-22-423”>>> r=re.match(".+(\d±\d±\d±\d+)",s)
r.group(1)
‘4-235-22-423’>>> r=re.match(".+?(\d±\d±\d±\d+)",s)

r.group(1)
‘234-235-22-423’

正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式:
非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。

re.match(r"aa(\d+)",“aa2343ddd”).group(1)
‘2343’>>> re.match(r"aa(\d+?)",“aa2343ddd”).group(1)
‘2’>>> re.match(r"aa(\d+)ddd",“aa2343ddd”).group(1)
‘2343’>>> re.match(r"aa(\d+?)ddd",“aa2343ddd”).group(1)
‘2343’

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值