正则表达式
# 正则表达式:解决字符串问题的工具(让复杂的字符串问题变成一个简单的工具)
# 问题:验证输入手机号是否合法
# abc - 不是
# 123 - 不是
# 12345678 - 不合法
# 13440768765 - 合法
# 13456788766655 - 不合法
from re import fullmatch,findall
def phone_nums(tel_no:str):
return not fullmatch(r'1[3-9]/d{9}',tel_no) !=None
tel = '13440678728'
print(phone_nums(tel))
1 .re模块
re模块是python用来支持正则表达式的一个模块
re模块中提供了各种和正则相关的函数:'fullmatch,search,findall,match,split,sub等等)
fullmathch(正则表达式,字符串) - 判断整个字符串是否完全符合正则表达式描述的规则。如果不符合返回值是None
python中提供正则表达式的方式:r’正则表达式’
js中提供正则表达式的方式:/正则表达式/
from re import fullmatch
# 匹配类符号 - 一个正则符号表示一类字符
# 匹配类符号在正则中的作用:用来要求字符串中某个位置必须是什么样的字符
# 1) 普通符号 - 在正则表达式中表示这个符号本身,对应字符串中的字符的要求就是符号本身
# 要求字符串:总共有三个字符,第一个是'a',第二个是'b',第三个是'c'
result = fullmatch(r'abc', 'abc')
print(result) # <re.Match object; span=(0, 3), match='abc'>
result = fullmatch(r'abc', 'bac')
print(result) # None
#2) . - 匹配任意一个字符
#要求字符串:总共三个字符,第一个是'a',最后一个是'c',中间可以是任意符号
result = fullmatch(r'a.c','a&c')
print(result) # <re.Match object; span=(0, 3), match='a&c'>
# 3)\d - 匹配一个任意数字
result = fullmatch(r'a\dc','a2c')
print(result)
result = fullmatch(r'\d\d\d','823')
print(result)
#4)\s - 匹配任意一个空白字符
# 空白字符包括:空格 \n \t
result = fullmatch(r'\d\s\d','1 2')
print(result)
# 5)\w - 匹配任意一个数字,字母或者下划线或者中文
result = fullmatch(r'a\wb','a3b')
print(result)
# 6)\大写字母 - 与相应的小写字母功能相反
#/D - 匹配任意一个非数字字符
#/S - 匹配任意一个非空白字符
# 等等......
7)[字符集] - 匹配字符集中任意一个元素字符
注意::一个[]只能匹配一个字符
[多个普通符号] - 例如[ab123],在a,b,1,2,3五个符号中任意匹配一个
[包含/开头的特色符号] - 例如:[mn/d],[m/dn],[/dmn] 要求是m,n,或者任意一个数字
[字符1-字符2] - 例如:[a-z],要求任意一个小写字母,[a-zA-Z]要求任意一个字母 ,[2-9a-z] 要求2到9或者任意一个小写字母
注意:[]中如果-不在两个字符中间,就不能表达谁到谁,就是一个普通符号 [az-]
from re import fullmatch
result = fullmatch(r'1[xyz]2','1x2')
print(result)
result = fullmatch(r'a[mn\d]b','a9b')
print(result)
result = fullmatch(r'1[a-z]2','1g2')
print(result)
result = fullmatch(r'a[\u4e00-\u9fa5]b','a以b')
print(result)
#8) [^字符集] - 匹配不在字符集中的任意一个字符
result = fullmatch(r'1[^xyz]2','1u2')
print(result)
result = fullmatch('r1[^2-9]2','1q2')
print(result)
2.匹配次数
1:
from re import fullmatch,search
# 1. * - 匹配0次或者多次(任意次数)
'''
a* - a出现任意次数
\d* - 任意多个数字
'''
result = fullmatch(r'a*b','aaaaaab')
print(result)
result = fullmatch(r'\d*b','222b')
print(result)
result = fullmatch(r'[A-Z]*b','DFFGFGb')
print(result)
# 2. + - 匹配1或者多次(至少1次)
result = fullmatch(r'a+b','aaaaab')
print(result)
# 3. ? - 0次或者1次
result = fullmatch(r'[+-]?123', '-123')
print(result)
# 4.{}
'''
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次
'''
result = fullmatch(r'\d{3}abc','567abc')
print(result)
result = fullmatch(r'\d{2,5}abc','2245abc')
print(result)
2.贪婪和非贪婪
在匹配次数不确定的时候,匹配模式分为贪婪和非贪婪两种,默认是贪婪的
匹配次数不确定 *,-,+,{M,N},{M,},{,N}
贪婪和非贪婪:在次数不确定的情况下,对应的字符串在不同次数下有多种匹配结果,贪婪取最多次数对应的结果(前提是匹配成功有多种情况)
非贪婪取最少次数对应的结果
from re import fullmatch,search
re_str = r'\d+'
result = fullmatch(r'\d+?','26373')
print(result)
# search(正则表达式,字符串) - 在字符串中查找第一个满足正则表达式的字符串
result = search(r'\d+?','对方对方的26373')
print(result)
result = search(r'a.*b','速度大幅度addbsddfb对方的b是的')
print(result)
result = search(r'a.*?b','速度大幅度addbsddfb对方的b是的')
print(result)
3.分支和分组
1.分组 - ()
分组就是在正则中用括号将正则中部分内容括起来形成一个分组
1)整体操作
2) 重复
#在正则中:\N可以重复 \N所在的位置前面的第N个分组匹配到的内容
‘mn34ff45hg67hg45’
3) 捕获 - 获取正则匹配结果中的部分内容
from re import fullmatch,findall
result = fullmatch(r'([a-zA-Z]{2}\d\d){3}','nm35hg56hg87')
print(result)
# 匹配:'23abc23','65abc65','34abc' - 成功
# '23abc43' 失败
result = fullmatch(r'(\d\d)abc\1','23abc23')
print(result)
result =fullmatch(r'(\d{3})([a-z]{2})-\2\1','678mn-mn678')
print(result)
result = fullmatch(r'(((\d{2})[A-Z]{3})[a-z]{2})-\2','12QWEqw-12QWE')
print(result)
result = findall(r'[a-z](\d\d)','爱喝酒2空间数据a789,明明a45对方的b2341==')
print(result) # ['78', '45', '23']
result = findall(r'[a-z]\d\d','爱喝酒2空间数据a789,明明a45对方的b2341==')
print(result) # ['a78', 'a45', 'b23']
2.分支
正则1/正则2 - 先用正则1进行匹配如果匹配成功就直接成功,如果匹配失败在用正则2进行匹配,如果匹配成功就成功,失败就失败
abc后面是两个任意数字或者是两个任意大写字母,‘abc34’ ‘abcKJ’
from re import fullmatch,findall
result = fullmatch(r'abc\d\d|abc[A-Z]{2}','abc34')
print(result)
result = fullmatch(r'abc(\d\d|[A-Z]{2})','abc12')
print(result)
4.检查类字符号和转移符号
1.检查类符号
检测类符号不是匹配符号,不会要求某个位置必须是什么样的字符,而是用检测某个位置是否符合相关要求
\b - 检测是否是单词边界
单词边界 - 凡是可以用两个单词区分的符号,例如:空白字符,标点符号,字符串开头,字符串结尾
from re import fullmatch,findall
result = findall(r'\d+','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) # ['52', '12543', '34', '4545', '234', '234', '34']
result = findall(r'\b\d+','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) # ['52', '34', '234', '234']
result = findall(r'\d+\b','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) # ['4545', '234']
result = findall(r'\b\d+\b','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) # ['234']
# \B - 检测是否是非单词边界
# 3)^ - 检测是否是字符串开头([]外面)
# 4)$ - 检测是否是字符串结尾
2.转移字符
正则中的转移符号是指在本身就具备特殊功能的符号前加\,让它本身功能消失变成一个普通符号
from re import fullmatch,findall
#写一个正则匹配一个小数
result = fullmatch(r'\d+\.\d+','2.3')
print(result)
#'23+78'
result = fullmatch(r'\d\d\+\d\d','23+78')
print(result)
# '(护具)'
result = fullmatch(r'\([\u4e00-\u9f5a]{2}\)','(护具)')
print(result)
#'\dabc'
result = fullmatch(r'\\dabc','\dabc')
print(result)
# '-abc','mabc','nabc'
result = fullmatch(r'[\^a\-z]abc','-abc')
print(result)
# 补充:独立存在有特殊意义的符号,放到[]中特殊功能会直接消失变成一个普通符号,例如:+,-,*,?,. ,....)等
result = fullmatch(r'[.+*?$]ab[.]c','+ab.c')
print(result)
5 .re模块
import re
1.常用函数
1)re.fullmatch(正则,字符串) - 判断整个字符串是否能够和正则表达式匹配,如果匹配成功返回匹配对象,匹配失败返回None
2)re.match(正则,字符串) - 匹配字符串开头,如果匹配成功返回匹配对象,匹配失败返回None
3)re.search(正则,字符串) - 匹配字符串中第一个满足正则的字符串,如果匹配成功返回匹配对象,匹配失败返回None
4)re.findall(正则,字符串) - 获取字符串中所有满足正则的字符串,返回值是列表,列表中元素是匹配到的字符串
5)re.finditer(正则,字符串) - 获取子字符串中所有满足正则的字串,返回一个迭代器,迭代器中元素是匹配对象
6)re.split(正则,字符串) - 将字符串所有满足正则的子串作为切割点对字符串进行切割,返回值是列表,列表中的元素是字符串
7)re.sub(正则,字符串1,字符串2) - 将字符串2中所有满足正则的子串全部替换成字符串1
import re
# 1)re.fullmatch(正则,字符串)
result = re.fullmatch(r'\d{3}','123')
print(result)
# 2) re.match(正则,字符串)
result = re.match(r'\d{3}','123dfdf')
print(result)
# 3) re.search(正则,字符串)
result = re.search(r'\d{3}','sdd345fbfd351')
print(result)
# 4) re.findall(正则,字符串)
result = re.findall(r'[a-z](\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(result) # ['356', '334']
result = re.findall(r'([a-z])(\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(result) # [('m', '356'), ('f', '334')]
# 5)re.finditer(正则,字符串)
result = re.finditer(r'\d{3}','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))
result = re.finditer(r'([a-z])(\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))
# 6) re.split(正则,字符串)
# re.split(正则,字符串,N)
result = re.split(r'\d{3}','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result)) # ['安身的地方', '苟富贵m', '打发打发', 'fgf', '3']
result = re.split(r'[abc]','反对反对a地方法规b的官方公告c的风格风格')
print(result)
# 7)re.sub(正则,字符串1,字符串2)
# re.sub(正则,字符串1,字符串2,N)
x = '反对反对a地方法规b的官方公告c的风格风格'
# 将a,b,c都替换成++
result = re.sub(r'[abc]','++',x)
print(result)
result = re.sub(r'\d+','0','安身的地方234苟富贵m356打发打发343fgf3343')
print(result) # 安身的地方0苟富贵m0打发打发0fgf0
result = re.sub(r'\d+','0','安身的地方234苟富贵m356打发打发343fgf3343',2)
print(result) # 安身的地方0苟富贵m0打发打发343fgf3343
2.匹配对象
import re
result = re.search(r'([a-z]{2})-(\d{3})','才风格的ag-345带段fd-351')
print(result) # <re.Match object; span=(4, 10), match='ag-345'>
# 1)获取匹配结果对应的字符串
# a. 获取整个正则匹配到的字符串:匹配对象.group()
r1 = result.group()
print(r1) # ag-345
# b.获取某个分组匹配到的结果:匹配对象.group(N)
r2 = result.group(1)
print(r2)
# 2) 获取匹配结果在原字符串中的位置
r3 = result.span()
print(r3)
# b 获取某个分组匹配到的结果:匹配对象.span(N)
r4 = result.span(1)
print(r4)
3.参数
1)单行匹配和多行匹配
多行匹配的时候,.不能和\n进行匹配 默认:flags = re.M、(?m)
单行匹配的时候,.可以和\n进行匹配 flags = re.S、(?s)
import re
# result = re.fullmatch(r'a.c','a\nc')
# print(result)
# 设置单行匹配
result = re.fullmatch(r'a.c','a\nc',flags=re.S)
print(result)
result = re.fullmatch(r'(?s)a.c','a\nc')
print(result)
2) 忽略大小写
默认情况下大写字母和小写字母是不能匹配的,忽略大小写后大写字母就可以和对应的小写字母匹配方法: flages = re.I (?i)
import re
result = re.fullmatch(r'abc','aBc',flags=re.I)
print(result)
result = re.fullmatch(r'(?i)12[a-z]','12B')
print(result)
# 3) 既忽略大小写又要单行匹配
# 方法:flages = re.I|re.s (?si)
result = re.fullmatch(r'abc.12','aBC\n12',flags=re.S|re.I)
print(result)
result = re.fullmatch(r'(?si)abc.12','aBC\n12')
print(result)
利用正则表达式完成下面的操作:
一、不定项选择题
-
能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括( A B D)
A.
r"\(?\d{3}\)?-?\d{8}"
B.r"[0-9()-]+"
C.r"[0-9(-)]*\d*"
D.r"[(]?\d*[)-]*\d*"
-
能够完全匹配字符串"back"和"back-end"的正则表达式包括( A B C D)
A.r'\w{4}-\w{3}|\w{4}'
B.r'\w{4}|\w{4}-\w{3}'
C.r'\S+-\S+|\S+'
D.r'\w*\b-\b\w*|\w*'
-
能够完全匹配字符串"go go"和"kitty kitty",但不能完全匹配“go kitty”的正则表达式包括(A D )
A.r '\b(\w+)\b\s+\1\b'
B.r'\w{2,5}\s*\1'
C.r'(\S+) \s+\1'
D.r'(\S{2,5})\s{1,}\1'
-
能够在字符串中匹配"aab",而不能匹配"aaab"和"aaaab"的正则表达式包括(B C )
A.r"a*?b"
B.r"a{,2}b"
C.r"aa??b"
D.r"aaa??b"
二、编程题
1.用户名匹配
要求: 1.用户名只能包含数字 字母 下划线
2.不能以数字开头
3.⻓度在 6 到 16 位范围内
import re
names = input('请输入用户名:')
x = re.fullmatch(r'[a-zA-Z_][\da-zA-Z_]{5,15}',names)
print(x)
- 密码匹配
要求: 1.不能包含!@#¥%^&*这些特殊符号
2.必须以字母开头
3.⻓度在 6 到 12 位范围内
import re
names = input('请输入密码:')
x = re.fullmatch(r'(?i)[a-z][^!@#¥%^&*]{5,11}',names)
print(x)
- ipv4 格式的 ip 地址匹配
提示: IP地址的范围是 0.0.0.0 - 255.255.255.255
import re
y = input('请输入ipv4地址:')
x = re.fullmatch(r'((\d|[1-9]\d|[1]\d\d|[2]([0-4]\d|[5][0-5]))\.){3}(\d|[1-9]\d|[1]\d\d|[2]([0-4]\d|[5][0-5]))',y)
print(x)
- 提取用户输入数据中的数值 (数值包括正负数 还包括整数和小数在内) 并求和
例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86
import re
def nums():
nums1 = 0
y = '-3.14good87nice19bye'
list1 = re.findall(r'\d+|-\d+\.\d+|\d+\.\d+|-\d+',y)
for x in list1:
nums1 += float(x)
return nums1
print(nums())
-
验证输入内容只能是汉字
import re y = input('请输入:') x = re.fullmatch(r'[\u4e00-\u9fa5]',y) print(x)
-
匹配整数或者小数(包括正数和负数)
import re
y = input(‘请输入:’)
x = re.fullmatch(r’([-]?(\d|[1-9]\d+))|([-]?(\d.\d+|[1-9]\d+.\d+))',y)
print(x)
7. 验证输入用户名和QQ号是否有效并给出对应的提示信息
> 要求:
> 用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
> QQ号是5~12的数字且首位不能为0
>
> ```py
> import re
>
> x = input('请输入用户名:')
> y = input('请输入qq号')
> result = re.fullmatch(r'[\da-zA-Z_]{6,20}',x)
> result1 = re.fullmatch(r'[1-9]\d{4,11}',y)
> #
> ```
>
>
8. 拆分长字符串:将一首诗的中的每一句话分别取出来
> poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。'
```py
import re
poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。'
x = re.split(r'[,。]',poem)
for q in x:
print(q)