学习Python Day16 —— 正则表达式

最新推荐文章于 2022-09-25 15:42:26 发布

zhaoxin0917

最新推荐文章于 2022-09-25 15:42:26 发布

阅读量72

点赞数

文章标签： python 正则表达式

本文链接：https://blog.csdn.net/zhaoxin0917/article/details/109209882

版权

学习Python Day16 —— 正则表达式

正则表达式是一种工具：一种专门用做字符串匹配的工具，能够在某些情况下能让字符串的处理变得非常简单。

正则表达式的语法

匹配符号

1.普通字符

2.“.” - 匹配任意一个字符

3.\d - 匹配任意一个数字字符

4.\D - 匹配任意一个非数字字符

5.\s - 匹配任意一个空白字符

6.\S - 匹配任意一个非空白字符

7.\w - 匹配任意一个数字、字母或者下划线（不好用，非ASCII码中的字符都可以匹配）

8.[字符集] - 匹配字符集中出现的任意一个字符

9.[^字符集] - 匹配不在字符集中的任意一个字符

注意：^在[]中，如果不是在开头就表示这个符号本身

检测符号

匹配符号要求一个符号必须对应一个字符，会影响字符串长度的描述

检测符号，不会匹配字符，也不会影响字符串长度，它是在匹配成功的前提下对指定位置的字符进行检测

1.\b - 检测是否是单词边界

2.\B - 检测是否不是单词边界

3.^ - 检测是否是字符串开头

4.$ - 检测是否是字符串结尾

匹配次数

1.* - 0或多次（任意次数）

2.+ - 1次或多次（至少1次）

3.? - 0次或1次

4.{}

{N} - 匹配N次
{M,N} - 匹配M到N次
{M,} - 匹配至少M次

5.贪婪和非贪婪

在匹配字数不确定的时候匹配模式就两种：贪婪（默认）和非贪婪(在不确定次数后面加?)

贪婪：在能匹配成功的前提下，匹配次数选最多的(+、、?、{M,N}、{M,}、{,N})
非贪婪：在能匹配成功的前提下，匹配次数选最少的(+?、?、??、{M,N}?、{M,}?、{,N}?)

分组

1.（）

用法一：整体操作次数
a{2,3}
(ab){2,3}

用法二：重复
\M - 重复前面第M个分组中匹配到的内容

用法三：捕获
re.findall在获取子串的时候，如果正则中有分组，只会获取分组匹配到的结果

分支

1.|

正则1|正则2|正则3|…
先用正则1进行匹配，如果匹配成功整个正则就匹配成功；如果失败就用正则2进行匹配，
如果匹配成功整个正则就匹配成功；如果失败就用正则3进行匹配，以此类推…

转义符号

1.\

在在正则中有特殊意义的符号前加\，让这个符号在正则中功能消失

re模块

1.re.compile(正则表达式) - 编译正则表达式，返回正则对象

re_obj = re.compile(r"\d{3}")
# 正则表达式对象.fullmatch(字符串)
print(re_obj.fullmatch("123"))

# re.fullmatch(正则表达式,字符串)
print(re.fullmatch(r"\d{3}", "123"))

2.匹配

fullmatch(正则,字符串) - 让整个字符串和正则进行匹配，匹配失败返回None，匹配成功返回匹配对象
match(正则,字符串) - 让字符串开头和正则进行匹配，匹配失败返回None，匹配成功返回匹配对象

3.匹配对象

result = re.match(r"(\d{2})([a-z]{3})", "12acb4561地方")
print(result)
# 1)匹配到的子串
# 匹配对象.group() / 匹配对象.group(0)  - 获取整个正则匹配到的子串
# 匹配对象.group(N)     - 获取第N个分组匹配到的子串
print(result.group())       # 12acb
print(result.group(1))      # 12

# 2)匹配范围    - 匹配到的子串在原字符串中的下标范围
# 匹配对象.span()
print(result.span())    # (0, 5)
print(result.span(2))   # (2, 5)

4.查找

search(正则, 字符串) - 在字符串查找第一个满足正则的子串，如果找到了返回匹配对象，找不到返回None
findall(正则, 字符串) - 获取字符串中所有满足正则的子串，返回值是列表，列表中的元素是字符串或者元祖，找不到返回空列表
finditer(正则, 字符串)- 获取字符串中所有满足正则的子串，返回值是迭代器，迭代器中的元素是匹配对象

# 2)findall
# 没有分组：['123', '456']
print(re.findall(r"\d{3}", "fdvcd123db456考完放假哦"))

# 有一个分组：['123', '456']
print(re.findall(r"a(\d{3})", "fdvcda123dba456考完放假哦"))

# 有两个或两个以上的分组：[('da', '123'), ('ba', '456')]
print(re.findall(r"([a-z]{2})(\d{3})", "fdvcda123dba456考完放假哦"))

# 3)finditer