python 正则2.0 re模块的高级应用

最新推荐文章于 2022-08-10 17:55:49 发布

唐朝栗子伊伊

最新推荐文章于 2022-08-10 17:55:49 发布

阅读量138

点赞数

分类专栏： python学习

本文链接：https://blog.csdn.net/weixin_43910841/article/details/85881261

版权

python学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

4.匹配分组

字符	功能
(ab)	将括号中字符作为一个分组
\num	引用分组num匹配到的字符串
(?P< name >)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

还有个特殊的‘ | ’是用来匹配左右任意一个字符串

例1：
‘ | ’
需求：匹配0~100之间的数字
在这里插入图片描述
例2：
‘ （） ’
需求：匹配出163，126，qq邮箱之间的数字

例3：
’ \ ‘
需求：匹配出s

例4：
’ \number ‘
需求：匹配出< html >

re模块的高级应用

search
需求：匹配出文章阅读的次数
在这里插入图片描述
findall
需求：统计出python，c++，c相应文章阅读的次数

sub 将匹配的数据进行替换
需求：将匹配到的阅读次数加 1
方法一：

方法二：

split 根据匹配进行切割字符串，并返回一个列表
需求：切割字符串“info:xiaoZhang 33 shandong’’
在这里插入图片描述

总结：在re模块的高级用法里面功能比较强大的是’ findall ‘和’ sub ‘

再啰嗦一句：
Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；
非贪婪则相反，总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上？，使贪婪变成非贪婪。

s=“This is a number 234-235-22-423”>>> r=re.match(".+(\d±\d±\d±\d+)",s)
r.group(1)
‘4-235-22-423’>>> r=re.match(".+?(\d±\d±\d±\d+)",s)

r.group(1)
‘234-235-22-423’

正则表达式模式中使用到通配字，那它在从左到右的顺序求值时，会尽量“抓取”满足匹配最长字符串，在我们上面的例子里面，“.+”会从字符串的启始处抓取满足模式的最长字符，其中包括我们想得到的第一个整型字段的中的大部分，“\d+”只需一位字符就可以匹配，所以它匹配了数字“4”，而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式：
非贪婪操作符“？”，这个操作符可以用在"*","+","?"的后面，要求正则匹配的越少越好。

re.match(r"aa(\d+)",“aa2343ddd”).group(1)
‘2343’>>> re.match(r"aa(\d+?)",“aa2343ddd”).group(1)
‘2’>>> re.match(r"aa(\d+)ddd",“aa2343ddd”).group(1)
‘2343’>>> re.match(r"aa(\d+?)ddd",“aa2343ddd”).group(1)
‘2343’

唐朝栗子伊伊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 正则2.0 re模块的高级应用

4.匹配分组字符功能(ab)将括号中字符作为一个分组\num引用分组num匹配到的字符串(?P&lt; name &gt;)分组起别名(?P=name)引用别名为name分组匹配到的字符串还有个特殊的‘ | ’是用来匹配左右任意一个字符串例1：‘ | ’需求：匹配0~100之间的数字例2：‘ （） ’需求：匹配出163，126...
复制链接

扫一扫