学习Python Day16 —— 正则表达式
正则表达式是一种工具:一种专门用做字符串匹配的工具,能够在某些情况下能让字符串的处理变得非常简单。
正则表达式的语法
匹配符号
1.普通字符
2.“.” - 匹配任意一个字符
3.\d - 匹配任意一个数字字符
4.\D - 匹配任意一个非数字字符
5.\s - 匹配任意一个空白字符
6.\S - 匹配任意一个非空白字符
7.\w - 匹配任意一个数字、字母或者下划线(不好用,非ASCII码中的字符都可以匹配)
8.[字符集] - 匹配字符集中出现的任意一个字符
9.[^字符集] - 匹配不在字符集中的任意一个字符
注意:^在[]中,如果不是在开头就表示这个符号本身
检测符号
匹配符号要求一个符号必须对应一个字符,会影响字符串长度的描述
检测符号,不会匹配字符,也不会影响字符串长度,它是在匹配成功的前提下对指定位置的字符进行检测
1.\b - 检测是否是单词边界
2.\B - 检测是否不是单词边界
3.^ - 检测是否是字符串开头
4.$ - 检测是否是字符串结尾
匹配次数
1.* - 0或多次(任意次数)
2.+ - 1次或多次(至少1次)
3.? - 0次或1次
4.{}
{N} - 匹配N次
{M,N} - 匹配M到N次
{M,} - 匹配至少M次
5.贪婪和非贪婪
在匹配字数不确定的时候匹配模式就两种:贪婪(默认)和非贪婪(在不确定次数后面加?)
贪婪:在能匹配成功的前提下,匹配次数选最多的(+、、?、{M,N}、{M,}、{,N})
非贪婪:在能匹配成功的前提下,匹配次数选最少的(+?、?、??、{M,N}?、{M,}?、{,N}?)
分组
1.( )
用法一:整体操作次数
a{2,3}
(ab){2,3}
用法二:重复
\M - 重复前面第M个分组中匹配到的内容
用法三:捕获
re.findall在获取子串的时候,如果正则中有分组,只会获取分组匹配到的结果
分支
1.|
正则1|正则2|正则3|…
先用正则1进行匹配,如果匹配成功整个正则就匹配成功;如果失败就用正则2进行匹配,
如果匹配成功整个正则就匹配成功;如果失败就用正则3进行匹配,以此类推…
转义符号
1.\
在在正则中有特殊意义的符号前加\,让这个符号在正则中功能消失
re模块
1.re.compile(正则表达式) - 编译正则表达式,返回正则对象
re_obj = re.compile(r"\d{3}")
# 正则表达式对象.fullmatch(字符串)
print(re_obj.fullmatch("123"))
# re.fullmatch(正则表达式,字符串)
print(re.fullmatch(r"\d{3}", "123"))
2.匹配
fullmatch(正则,字符串) - 让整个字符串和正则进行匹配,匹配失败返回None,匹配成功返回匹配对象
match(正则,字符串) - 让字符串开头和正则进行匹配,匹配失败返回None,匹配成功返回匹配对象
3.匹配对象
result = re.match(r"(\d{2})([a-z]{3})", "12acb4561地方")
print(result)
# 1)匹配到的子串
# 匹配对象.group() / 匹配对象.group(0) - 获取整个正则匹配到的子串
# 匹配对象.group(N) - 获取第N个分组匹配到的子串
print(result.group()) # 12acb
print(result.group(1)) # 12
# 2)匹配范围 - 匹配到的子串在原字符串中的下标范围
# 匹配对象.span()
print(result.span()) # (0, 5)
print(result.span(2)) # (2, 5)
4.查找
search(正则, 字符串) - 在字符串查找第一个满足正则的子串,如果找到了返回匹配对象,找不到返回None
findall(正则, 字符串) - 获取字符串中所有满足正则的子串,返回值是列表,列表中的元素是字符串或者元祖,找不到返回空列表
finditer(正则, 字符串)- 获取字符串中所有满足正则的子串,返回值是迭代器,迭代器中的元素是匹配对象
# 2)findall
# 没有分组:['123', '456']
print(re.findall(r"\d{3}", "fdvcd123db456考完放假哦"))
# 有一个分组:['123', '456']
print(re.findall(r"a(\d{3})", "fdvcda123dba456考完放假哦"))
# 有两个或两个以上的分组:[('da', '123'), ('ba', '456')]
print(re.findall(r"([a-z]{2})(\d{3})", "fdvcda123dba456考完放假哦"))
# 3)finditer
5.切割和替换
split(正则, 字符串) - 将字符串中满足正则的子串作为切割点
sub(正则, 字符串1, 字符串2) - 将字符串2中满足正则的子串全部替换成字符串1