16正则表达式_正则表达式包含--CSDN博客

本文链接：https://blog.csdn.net/zyh04264115/article/details/124600330

正则表达式

# 正则表达式：解决字符串问题的工具（让复杂的字符串问题变成一个简单的工具）

# 问题：验证输入手机号是否合法

# abc - 不是
# 123 - 不是
# 12345678 - 不合法
# 13440768765 - 合法
# 13456788766655 - 不合法

from re import fullmatch,findall

def phone_nums(tel_no:str):
    return not fullmatch(r'1[3-9]/d{9}',tel_no) !=None

tel = '13440678728'
print(phone_nums(tel))

1 .re模块

re模块是python用来支持正则表达式的一个模块

re模块中提供了各种和正则相关的函数：'fullmatch,search,findall,match,split,sub等等）

fullmathch（正则表达式,字符串） - 判断整个字符串是否完全符合正则表达式描述的规则。如果不符合返回值是None

python中提供正则表达式的方式：r’正则表达式’

js中提供正则表达式的方式：/正则表达式/

from re import fullmatch

# 匹配类符号 - 一个正则符号表示一类字符
# 匹配类符号在正则中的作用：用来要求字符串中某个位置必须是什么样的字符
# 1） 普通符号 - 在正则表达式中表示这个符号本身，对应字符串中的字符的要求就是符号本身

# 要求字符串：总共有三个字符，第一个是'a',第二个是'b',第三个是'c'

result = fullmatch(r'abc', 'abc')

print(result)  # <re.Match object; span=(0, 3), match='abc'>

result = fullmatch(r'abc', 'bac')
print(result)  # None

#2) . - 匹配任意一个字符
#要求字符串：总共三个字符，第一个是'a',最后一个是'c',中间可以是任意符号
result = fullmatch(r'a.c','a&c')
print(result)  # <re.Match object; span=(0, 3), match='a&c'>

# 3）\d - 匹配一个任意数字
result = fullmatch(r'a\dc','a2c')

print(result)

result = fullmatch(r'\d\d\d','823')
print(result)

#4）\s - 匹配任意一个空白字符
# 空白字符包括：空格 \n \t
result = fullmatch(r'\d\s\d','1 2')
print(result)

# 5）\w - 匹配任意一个数字，字母或者下划线或者中文
result = fullmatch(r'a\wb','a3b')
print(result)

# 6）\大写字母 - 与相应的小写字母功能相反
#/D - 匹配任意一个非数字字符
#/S - 匹配任意一个非空白字符
#  等等......

7）[字符集] - 匹配字符集中任意一个元素字符

注意：：一个[]只能匹配一个字符

[多个普通符号] - 例如[ab123],在a，b，1，2，3五个符号中任意匹配一个

[包含/开头的特色符号] - 例如：[mn/d],[m/dn],[/dmn] 要求是m，n，或者任意一个数字

[字符1-字符2] - 例如：[a-z],要求任意一个小写字母，[a-zA-Z]要求任意一个字母，[2-9a-z] 要求2到9或者任意一个小写字母

注意：[]中如果-不在两个字符中间，就不能表达谁到谁，就是一个普通符号 [az-]

from re import fullmatch

result = fullmatch(r'1[xyz]2','1x2')
print(result)

result = fullmatch(r'a[mn\d]b','a9b')
print(result)

result = fullmatch(r'1[a-z]2','1g2')
print(result)

result = fullmatch(r'a[\u4e00-\u9fa5]b','a以b')
print(result)

#8) [^字符集] - 匹配不在字符集中的任意一个字符

result = fullmatch(r'1[^xyz]2','1u2')
print(result)

result = fullmatch('r1[^2-9]2','1q2')
print(result)

2.匹配次数

1:

from re import fullmatch,search

# 1. * - 匹配0次或者多次（任意次数）

'''
a* - a出现任意次数
\d* - 任意多个数字
'''
result = fullmatch(r'a*b','aaaaaab')
print(result)

result = fullmatch(r'\d*b','222b')
print(result)

result = fullmatch(r'[A-Z]*b','DFFGFGb')
print(result)


# 2. + - 匹配1或者多次（至少1次）
result = fullmatch(r'a+b','aaaaab')
print(result)

# 3. ? - 0次或者1次
result = fullmatch(r'[+-]?123', '-123')
print(result)

# 4.{}
'''
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次


'''

result = fullmatch(r'\d{3}abc','567abc')
print(result)

result = fullmatch(r'\d{2,5}abc','2245abc')
print(result)

2.贪婪和非贪婪

在匹配次数不确定的时候，匹配模式分为贪婪和非贪婪两种，默认是贪婪的

匹配次数不确定 *，-，+，{M,N}，{M,},{,N}

贪婪和非贪婪：在次数不确定的情况下，对应的字符串在不同次数下有多种匹配结果，贪婪取最多次数对应的结果（前提是匹配成功有多种情况）

非贪婪取最少次数对应的结果

from re import fullmatch,search
re_str = r'\d+'
result = fullmatch(r'\d+?','26373')

print(result)

# search(正则表达式，字符串） - 在字符串中查找第一个满足正则表达式的字符串
result = search(r'\d+?','对方对方的26373')
print(result)

result = search(r'a.*b','速度大幅度addbsddfb对方的b是的')
print(result)

result = search(r'a.*?b','速度大幅度addbsddfb对方的b是的')
print(result)

3.分支和分组

1.分组 - ()

分组就是在正则中用括号将正则中部分内容括起来形成一个分组

1）整体操作

2) 重复

#在正则中：\N可以重复 \N所在的位置前面的第N个分组匹配到的内容

‘mn34ff45hg67hg45’

3) 捕获 - 获取正则匹配结果中的部分内容

from re import fullmatch,findall

result = fullmatch(r'([a-zA-Z]{2}\d\d){3}','nm35hg56hg87')
print(result)

# 匹配：'23abc23','65abc65','34abc' - 成功
#      '23abc43' 失败

result = fullmatch(r'(\d\d)abc\1','23abc23')
print(result)

result =fullmatch(r'(\d{3})([a-z]{2})-\2\1','678mn-mn678')
print(result)

result = fullmatch(r'(((\d{2})[A-Z]{3})[a-z]{2})-\2','12QWEqw-12QWE')
print(result)


result = findall(r'[a-z](\d\d)','爱喝酒2空间数据a789，明明a45对方的b2341==')
print(result)  # ['78', '45', '23']

result = findall(r'[a-z]\d\d','爱喝酒2空间数据a789，明明a45对方的b2341==')
print(result)  # ['a78', 'a45', 'b23']

2.分支

正则1/正则2 - 先用正则1进行匹配如果匹配成功就直接成功，如果匹配失败在用正则2进行匹配，如果匹配成功就成功，失败就失败

abc后面是两个任意数字或者是两个任意大写字母，‘abc34’ ‘abcKJ’

from re import fullmatch,findall

result = fullmatch(r'abc\d\d|abc[A-Z]{2}','abc34')
print(result)

result = fullmatch(r'abc(\d\d|[A-Z]{2})','abc12')
print(result)

4.检查类字符号和转移符号

1.检查类符号

检测类符号不是匹配符号，不会要求某个位置必须是什么样的字符，而是用检测某个位置是否符合相关要求

\b - 检测是否是单词边界

单词边界 - 凡是可以用两个单词区分的符号，例如:空白字符，标点符号，字符串开头，字符串结尾

from re import fullmatch,findall

result = findall(r'\d+','52数据12543dsd，34发4545，的风格 234sdf，234，似懂非懂的是34sf')
print(result) # ['52', '12543', '34', '4545', '234', '234', '34']

result = findall(r'\b\d+','52数据12543dsd，34发4545，的风格 234sdf，234，似懂非懂的是34sf')
print(result)  # ['52', '34', '234', '234']

result = findall(r'\d+\b','52数据12543dsd，34发4545，的风格 234sdf，234，似懂非懂的是34sf')
print(result) #  ['4545', '234']

result = findall(r'\b\d+\b','52数据12543dsd，34发4545，的风格 234sdf，234，似懂非懂的是34sf')
print(result) # ['234']


# \B - 检测是否是非单词边界

# 3）^  -  检测是否是字符串开头([]外面)

# 4)$  -  检测是否是字符串结尾

2.转移字符

正则中的转移符号是指在本身就具备特殊功能的符号前加\，让它本身功能消失变成一个普通符号

from re import fullmatch,findall

#写一个正则匹配一个小数
result = fullmatch(r'\d+\.\d+','2.3')
print(result)

#'23+78'
result = fullmatch(r'\d\d\+\d\d','23+78')
print(result)

# '(护具)'
result = fullmatch(r'\([\u4e00-\u9f5a]{2}\)','(护具)')
print(result)

#'\dabc'

result = fullmatch(r'\\dabc','\dabc')
print(result)

# '-abc','mabc','nabc'

result = fullmatch(r'[\^a\-z]abc','-abc')
print(result)

# 补充：独立存在有特殊意义的符号，放到[]中特殊功能会直接消失变成一个普通符号，例如：+，-，*，？，. ,....)等

result = fullmatch(r'[.+*?$]ab[.]c','+ab.c')
print(result)

5 .re模块

import re

1.常用函数

1）re.fullmatch(正则，字符串） - 判断整个字符串是否能够和正则表达式匹配，如果匹配成功返回匹配对象，匹配失败返回None

2）re.match(正则，字符串) - 匹配字符串开头，如果匹配成功返回匹配对象，匹配失败返回None

3）re.search(正则，字符串) - 匹配字符串中第一个满足正则的字符串，如果匹配成功返回匹配对象，匹配失败返回None

4）re.findall(正则，字符串) - 获取字符串中所有满足正则的字符串，返回值是列表，列表中元素是匹配到的字符串

5）re.finditer(正则，字符串) - 获取子字符串中所有满足正则的字串，返回一个迭代器，迭代器中元素是匹配对象

6）re.split(正则，字符串) - 将字符串所有满足正则的子串作为切割点对字符串进行切割，返回值是列表，列表中的元素是字符串

7）re.sub(正则，字符串1，字符串2) - 将字符串2中所有满足正则的子串全部替换成字符串1

import re

# 1）re.fullmatch(正则，字符串)
result = re.fullmatch(r'\d{3}','123')
print(result)

# 2) re.match(正则，字符串)

result = re.match(r'\d{3}','123dfdf')
print(result)

# 3) re.search(正则，字符串)
result = re.search(r'\d{3}','sdd345fbfd351')
print(result)

# 4) re.findall(正则，字符串)

result = re.findall(r'[a-z](\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(result)  #  ['356', '334']


result = re.findall(r'([a-z])(\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(result)  # [('m', '356'), ('f', '334')]

# 5)re.finditer(正则，字符串)
result = re.finditer(r'\d{3}','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))

result = re.finditer(r'([a-z])(\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))

# 6) re.split(正则，字符串)
#    re.split(正则，字符串，N)
result = re.split(r'\d{3}','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))  # ['安身的地方', '苟富贵m', '打发打发', 'fgf', '3']

result = re.split(r'[abc]','反对反对a地方法规b的官方公告c的风格风格')
print(result)

# 7)re.sub(正则，字符串1,字符串2)
#   re.sub(正则，字符串1,字符串2,N)
x = '反对反对a地方法规b的官方公告c的风格风格'
# 将a,b,c都替换成++


result = re.sub(r'[abc]','++',x)
print(result)

result = re.sub(r'\d+','0','安身的地方234苟富贵m356打发打发343fgf3343')
print(result) # 安身的地方0苟富贵m0打发打发0fgf0

result = re.sub(r'\d+','0','安身的地方234苟富贵m356打发打发343fgf3343',2)
print(result) # 安身的地方0苟富贵m0打发打发343fgf3343

2.匹配对象

import re

result = re.search(r'([a-z]{2})-(\d{3})','才风格的ag-345带段fd-351')
print(result) # <re.Match object; span=(4, 10), match='ag-345'>
# 1）获取匹配结果对应的字符串
# a. 获取整个正则匹配到的字符串：匹配对象.group()

r1 = result.group()
print(r1) # ag-345

# b.获取某个分组匹配到的结果：匹配对象.group(N)
r2 = result.group(1)
print(r2)

# 2) 获取匹配结果在原字符串中的位置
r3 = result.span()
print(r3)

# b 获取某个分组匹配到的结果：匹配对象.span(N)
r4 = result.span(1)
print(r4)

3.参数

1）单行匹配和多行匹配

多行匹配的时候，.不能和\n进行匹配默认：flags = re.M、(?m)

单行匹配的时候，.可以和\n进行匹配 flags = re.S、(?s)

import re

# result = re.fullmatch(r'a.c','a\nc')
# print(result)

# 设置单行匹配
result = re.fullmatch(r'a.c','a\nc',flags=re.S)
print(result)


result = re.fullmatch(r'(?s)a.c','a\nc')
print(result)

2) 忽略大小写

默认情况下大写字母和小写字母是不能匹配的，忽略大小写后大写字母就可以和对应的小写字母匹配方法： flages = re.I (?i)

import re

result = re.fullmatch(r'abc','aBc',flags=re.I)
print(result)


result = re.fullmatch(r'(?i)12[a-z]','12B')
print(result)


# 3) 既忽略大小写又要单行匹配
# 方法:flages = re.I|re.s   (?si)
result = re.fullmatch(r'abc.12','aBC\n12',flags=re.S|re.I)
print(result)

result = re.fullmatch(r'(?si)abc.12','aBC\n12')
print(result)

利用正则表达式完成下面的操作:

一、不定项选择题

能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括（ A B D）

A. r"\(?\d{3}\)?-?\d{8}"
B. r"[0-9()-]+"
C. r"[0-9(-)]*\d*"
D.r"[(]?\d*[)-]*\d*"
能够完全匹配字符串"back"和"back-end"的正则表达式包括（ A B C D）
A. r'\w{4}-\w{3}|\w{4}'
B. r'\w{4}|\w{4}-\w{3}'
C.r'\S+-\S+|\S+'
D. r'\w*\b-\b\w*|\w*'
能够完全匹配字符串"go go"和"kitty kitty"，但不能完全匹配“go kitty”的正则表达式包括（A D ）
A.r '\b(\w+)\b\s+\1\b'
B. r'\w{2,5}\s*\1'
C. r'(\S+) \s+\1'
D. r'(\S{2,5})\s{1,}\1'
能够在字符串中匹配"aab"，而不能匹配"aaab"和"aaaab"的正则表达式包括（B C ）
A. r"a*?b"
B. r"a{,2}b"
C. r"aa??b"
D. r"aaa??b"

二、编程题

1.用户名匹配

要求: 1.用户名只能包含数字字母下划线

2.不能以数字开头

3.⻓度在 6 到 16 位范围内

import re

names = input('请输入用户名：')

x = re.fullmatch(r'[a-zA-Z_][\da-zA-Z_]{5,15}',names)
print(x)

密码匹配

要求: 1.不能包含!@#¥%^&*这些特殊符号

2.必须以字母开头

3.⻓度在 6 到 12 位范围内

import re

names = input('请输入密码：')

x = re.fullmatch(r'(?i)[a-z][^!@#¥%^&*]{5,11}',names)
print(x)

ipv4 格式的 ip 地址匹配
提示: IP地址的范围是 0.0.0.0 - 255.255.255.255

import re

y = input('请输入ipv4地址：')

x = re.fullmatch(r'((\d|[1-9]\d|[1]\d\d|[2]([0-4]\d|[5][0-5]))\.){3}(\d|[1-9]\d|[1]\d\d|[2]([0-4]\d|[5][0-5]))',y)
print(x)

提取用户输入数据中的数值 (数值包括正负数还包括整数和小数在内) 并求和

例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86

import re

def nums():
    nums1 = 0
    y = '-3.14good87nice19bye'
    list1 = re.findall(r'\d+|-\d+\.\d+|\d+\.\d+|-\d+',y)
    for x in list1:
        nums1 += float(x)

    return nums1

print(nums())

验证输入内容只能是汉字

import re

y = input('请输入：')
x = re.fullmatch(r'[\u4e00-\u9fa5]',y)
print(x)

匹配整数或者小数（包括正数和负数）

import re

y = input(‘请输入：’)

x = re.fullmatch(r’([-]?(\d|[1-9]\d+))|([-]?(\d.\d+|[1-9]\d+.\d+))',y)
print(x)




7. 验证输入用户名和QQ号是否有效并给出对应的提示信息

> 要求：
> 用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
> QQ号是5~12的数字且首位不能为0
>
> ```py
> import re
> 
> x = input('请输入用户名：')
> y = input('请输入qq号')
> result = re.fullmatch(r'[\da-zA-Z_]{6,20}',x)
> result1 = re.fullmatch(r'[1-9]\d{4,11}',y)
> # 
> ```
>
> 

8. 拆分长字符串：将一首诗的中的每一句话分别取出来

> 	poem = '窗前明月光，疑是地上霜。举头望明月，低头思故乡。'

```py
import re

poem = '窗前明月光，疑是地上霜。举头望明月，低头思故乡。'
x = re.split(r'[，。]',poem)
for q in x:
 print(q)