python正则表达式的学习

枫茗、

已于 2022-06-17 19:41:46 修改

阅读量1.2k

点赞数

分类专栏： python学习文章标签： python

于 2022-04-27 11:14:40 首次发布

本文链接：https://blog.csdn.net/weixin_45772744/article/details/124443101

版权

python学习专栏收录该内容

6 篇文章 4 订阅

订阅专栏

正则表达式

正则表达式
--通用的字符串表达工具

正则表达式的使用
编译:将符合正则表达式语法的字符串转换成正则表达式特征
正则表达式 →(编译 p=re.complie(regex))→ 特征
可认为编译后的特征与一组字符串是对应的
编译前的正则表达式只是符合正则表达式语法的一个字符串

规则图

一. 正则表达式的表示类型

re库采用raw string类型表达正则表达式, 表示为: r'text'
例如: r'[1-9]\d{5}'
raw string 是不包含转义符('\')的字符串

二.Re库的主要功能函数

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置, 返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式, 返回match对象
re.findall()	搜索字符串, 以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割, 返回列表类型
re.finditer()	搜索字符串, 返回一个匹配结果的迭代类型, 每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串, 返回替换后的字符串

① match=re.search(pattern,string, flags=0)

在一个字符串中搜索匹配正则表达式的第一个位置, 返回match对象.
pattern: 正则表达式的字符串或原生字符串表示
string: 待匹配字符串
flags: 正则表达式使用时的控制标记

常用标记	说明
re.I re.IGNORECASE	忽略正则表达的大小写, [A-Z]能够匹配小写字符
re.M re.MULTILINE	正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
re.S re.DOTALL	正则表达式中的.操作符能够匹配所有字符, 默认匹配除换行外的所有字符

常用标记

说明

re.I re.IGNORECASE

忽略正则表达的大小写, [A-Z]能够匹配小写字符

re.M re.MULTILINE

正则表达式中的^操作符能够将给定字符串的每行当作匹配开始

re.S

re.DOTALL

正则表达式中的.操作符能够匹配所有字符, 默认匹配除换行外的所有字符

example:

对返回match变量进行使用前，先用if语句进行判断。

match只有从头开始匹配匹配到了才算匹配成功。

② list=re.split(pattern, string)

③ re.split(pattern, string, maxsplit=0, flags=0)

将一个字符串按照正则表达式匹配结果进行分割, 返回列表类型.
pattern: 正则表达式的字符串或原生字符串表示
string: 待匹配字符串
maxsplit: 最大分割数, 剩余部分作为最后一个元素输出
flags: 正则表达式使用时的控制标记

example:

④ match=re.finditer(pattern, string, flags)

⑤ re.sub(pattern, repl, string, count=0, flags=0)

在一个字符串中替换所有匹配正则表达式的子串, 返回替换后的字符串
pattern: 正则表达式的字符串或原生字符串表示
repl: 替换匹配字符串的字符串
string: 待匹配字符串
count: 匹配的最大替换次数
flags: 正则表达式使用时的控制标记

******

re.compile(pattern, flags=0)

将正则表达式的字符串形式编译成正则表达式对象
pattern: 正则表达式的字符串或原生字符串表示
flags: 正则表达式使用时的控制标记

函数式用法: 一次性操作:

match = re.search(r'[1-9]\d{5}', 'BIS 100081')

等价于

面向对象用法: 编译后的多次操作:

pat = re.compile(r'[1-9]\d{5}')
match = pat.search('BiS 100081')

三.Match对象

① Match对象的属性

属性	说明
.string	待匹配的文本
.re	匹配时使用的pattern对象(正则表达式)
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置

② Match对象的方法

方法	说明
.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end()	匹配字符串在原始字符串的结束位置
.span()	返回(.start(), .end())

四.贪婪匹配

Re库默认采用贪婪匹配, 即输出匹配最长的子串

如何变成最小匹配

操作符	说明
*?	前一个字符0次或无限次扩展,最小匹配
+?	前一个字符1次或无限次扩展, 最小匹配
??	前一个字符0次或1次扩展, 最小匹配
{m,n}?	扩展前一个字符m至n次(含n), 最小匹配

五.group与groups的用法

group()查看正则式所匹配内容
group(1)查看正则式中第一个括号里面的内容 , group() 里面的参数是从1开始的, 不是0

>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m.group(0)       # The entire match 整个匹配
'Isaac Newton'
>>> m.group(1)       # The first parenthesized subgroup. 第一个括号分隔的子群
'Isaac'
>>> m.group(2)       # The second parenthesized subgroup. 第二个括号分隔的子群
'Newton'
>>> m.group(1, 2)    # Multiple arguments give us a tuple. 多个参数给我们一个元组
('Isaac', 'Newton')