# 正则表达式

最新推荐文章于 2024-08-21 18:19:42 发布

Zack_36

最新推荐文章于 2024-08-21 18:19:42 发布

阅读量1.4k

点赞数

文章标签：正则表达式 python 开发语言

本文链接：https://blog.csdn.net/zack_36/article/details/126257204

版权

# 正则表达式

1. 什么是正则表达式

正则表达式是一种可以让复杂的字符串问题变得简单的工具。

正则并不是Python特有语法(不属于Python)，所有的高级编程语言都支持正在，正在的语法通用。

不管通过正则表达式解决的时候什么问题，写正则的时候都是在使用正则表达式描述字符串规则。

2. Python的re模块

re模块是Python用来支持正则表达式的一个模块，模块中包含了所有和正则相关的函数。

fullmatch (正则表达式, 字符串) - 判断正则表达式和指定的字符串是否完全匹配(判断整个字符

串是否符合正则表达式所描述的规则),如果匹配成功返回匹配对象，匹配失败返回None

  from re import fullmatch

3.正则语法匹配类符号

# 1)普通符号  -  在正则表达式中表示符号本身的符号
result = fullmatch(r'abc', 'abc')
print(result)

# 2).   -   匹配任意一个字符
result = fullmatch(r'a.c', 'a.c')
print(result)

result = fullmatch(r'..abc', '*9abc')
print(result)

# 3)\d  -  匹配任意一个数字字符
result = fullmatch(r'a\dc', 'a5c')
print(result)

# 4)\s  -   匹配任意一个空白字符
空白字符  -   能产生空白效果的字符，例如：空格、换行、水平制表符
result = fullmatch(r'a\sc', 'a\tc')
print(result)

result = fullmatch(r'\d\d\s.ab', '34 吗ab')
print(result)

# 5)\D  -   匹配任意一个非数字字符
result = fullmatch(r'a\Dc', 'a*c')
print(result)

# 6)\S  -   匹配任意一个非空白字符
result = fullmatch(r'a\Sc', 'a c')
print(result)       # None

result = fullmatch(r'a\Sc', 'a1c')
print(result)

# 7)[字符集]       -      匹配字符集中的任意一个字符
"""
[abc]       -       匹配a或者b或者c
[abc\d]     -       匹配a或者b或者c或者任意数字
[1-9]       -       匹配1到9中的任意一个数字
[a-z]       -       匹配任意一个小写字母
[A-Z]       -       匹配任意一个大写字母
[a-zA-Z]    -       匹配任意一个字母
[a-zA-Z\d_]     -   匹配字母数字或者下划线
[\u4e00-\u9fa5]     -   匹配任意一个中文字符

注意：[]中减号放在两个字符之间表示谁到谁(确定的方式是根据字符编码值大小确定的);  如果减号不在两个字符之间，就表示一个普通的减号
"""
result = fullmatch(r'a[MN12]b', 'aNb')
print(result)

result = fullmatch(r'a[MN\d]b', 'a4b')
print(result)

# 8)[^字符集]      -   匹配不在字符集中的任意一个字符
result = fullmatch(r'a[^MN]b', 'a是b')
print(result)

result = fullmatch(r'a[^\u4e00-\u9fa5]b', 'a-b')
print(result)

次数

# 1. *      -   0次或多次（任意次数）
# 注意：*在谁的后面控制的就是谁的次数
"""
a*      -       0个或多个a
\d*     -       0个或者多个\d

"""
result = fullmatch(r'a*123', 'aaaaaaaa123')
print(result)

result = fullmatch(r'\d*abc', '123411232abc')
print(result)

result = fullmatch(r'[MN]*abc', 'MNMabc')
print(result)


# 2. +      -   1次或者多次(至少一次)
result = fullmatch(r'a+123', 'aaaaa123')
print(result)

# 3. ?      -   0次或1次
result = fullmatch(r'A?123', 'A123')
print(result)

# 4. {}
"""
{M,N}   -   M到N次
{M,}    -   至少M次
{,N}    -   最多N次
{N}     -   N次
"""

result = fullmatch(r'[a-z]{3,5}123', 'bambk123')
print(result)


# 练习：写一个正则，判断输入的内容是否是一个合法的QQ号(长度是5~12位的数字，第一位不能是0)
qq = '3452'
result = fullmatch(r'[1-9]\d{4,11}', qq)
if result:
    print(f'{qq} 合法')
else:
    print(f'{qq} 不合法')


# 练习：判断输入的内容是否是一个合法的标识符(由字母、数字下划线组成，数字不能开头)
str1 = 'abc'
result = fullmatch(r'[a-zA-Z_][\da-zA-Z_]*', str1)
print(result)

match(正则表达式, 字符串) - 判断字符串开头是否符合正则表达式描述的规则

from re import match


result = match(r'\d{3}', '234宿舍wsww')
print(result)

贪婪和非贪婪

from re import match
"""
当匹配次数不确定的时候(*、+、?、{M,N}、{M,}、{,N})，匹配模式分为贪婪和非贪婪两种，默认是贪婪的。

贪婪和非贪婪：在匹配成功的时候有多种匹配结果，贪婪去最多次数对应的匹配结果, 非贪婪取最少次数对应的匹配结果
            (匹配次数不确定的地方，有多种匹配方式都可以匹配成功，贪婪取最多次数, 非贪婪取最少次数)
            
贪婪模式：*、+、?、{M,N}、{M,}、{,N}
非贪婪模式：*?、+?、??、{M,N}?、{M,}?、{,N}?
"""

# amb、amb计算b、amb计算bxxb
# 1)示例1：
# 贪婪模式
result = match(r'a.+b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 9), match='amb计算bxxb'>

# 非贪婪模式
result = match(r'a.+?b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 3), match='amb'>


# 注意：如果匹配结果只有一种可能，那么贪婪和非贪婪的结果一样
result = match(r'a.+b', 'ambxx')
print(result)           #  <re.Match object; span=(0, 3), match='amb'>

result = match(r'a.+?b', 'ambxx')
print(result)           # <re.Match object; span=(0, 3), match='amb'>

from re import match

# match(正则表达式, 字符串)  - 判断字符串开头是否符合正则表达式描述的规则
result = match(r'\d{3}', '234宿舍wsww')
print(result)

# 1. 贪婪和非贪婪
"""
当匹配次数不确定的时候(*、+、?、{M,N}、{M,}、{,N})，匹配模式分为贪婪和非贪婪两种，默认是贪婪的。

贪婪和非贪婪：在匹配成功的时候有多种匹配结果，贪婪去最多次数对应的匹配结果, 非贪婪取最少次数对应的匹配结果
            (匹配次数不确定的地方，有多种匹配方式都可以匹配成功，贪婪取最多次数, 非贪婪取最少次数)
            
贪婪模式：*、+、?、{M,N}、{M,}、{,N}
非贪婪模式：*?、+?、??、{M,N}?、{M,}?、{,N}?
"""

# amb、amb计算b、amb计算bxxb
# 1)示例1：
# 贪婪模式
result = match(r'a.+b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 9), match='amb计算bxxb'>

# 非贪婪模式
result = match(r'a.+?b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 3), match='amb'>


# 注意：如果匹配结果只有一种可能，那么贪婪和非贪婪的结果一样
result = match(r'a.+b', 'ambxx')
print(result)           #  <re.Match object; span=(0, 3), match='amb'>

result = match(r'a.+?b', 'ambxx')
print(result)           # <re.Match object; span=(0, 3), match='amb'>

转义字符

from re import fullmatch

# 1. 转义符号
# 正则中的转义符号，就是在本身具备特殊功能或者特殊意义的符号前加'\'，让这个符号变成一个普通符号。

# 匹配任意一个小数对应的字符串
result = fullmatch(r'\d+\.\d+', '23.879')
print(result)

# +234、+889111
result = fullmatch(r'\+\d+', '+23')
print(result)

# (mv)、(ksma)
result = fullmatch(r'\([a-z]+\)', '(msnd)')
print(result)


# 2. []里面的转义符号
# 单独存在有特殊意义的符号(+、*、?、.等)，在[]中特殊意义会自动消失
result = fullmatch(r'\d+[.+*?]\d+', '23?879')
print(result)


# 本身在中括号中有特殊功能的符号，如果要表示普通符合必须加'\'
result = fullmatch(r'a[MN-]b', 'a-b')
print(result)

result = fullmatch(r'a[M\-N]b', 'a-b')
print(result)

result = fullmatch(r'a[MN^]b', 'a^b')
print(result)

result = fullmatch(r'a[\^MN]b', 'a^b')
print(result)

检测类

from re import fullmatch, findall

# 检测类符号是在匹配成功的情况下，检测检测类符号所在的位置是否符号相关要求

# 1.\b  -   检测是否是单词边界
# 单词边界：可以将两个单词区分开的符号都是单词边界，比如：空白符号、英文标点符号、字符串开头和字符串结尾
result = fullmatch(r'abc\b mn', 'abc mn')
print(result)


message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\d+', message)
print(result)       # ['203', '45', '89', '34', '23', '99', '910', '230', '90']

result = findall(r'\d+\b', message)
print(result)       # ['45', '89', '23', '910', '230', '90']

result = findall(r'\b\d+', message)
print(result)       # ['203', '89', '23', '99', '910', '230', '90']

result = findall(r'\b\d+\b', message)
print(result)       # ['89', '23', '910', '230', '90']


# 2.\B  -   检测是否不是单词边界
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\B\d+\B', message)
print(result)


# 3.^   -   检测是否是字符串开头
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'^\d+', message)
print(result)

# 提取字符串前5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'^.{5}', message)
print(result)


# 4.$   -   检测是否是字符串结尾
# 提取字符串最后5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'.{5}$', message)
print(result)


# '\2233'
result = fullmatch(r'\\\d+', '\92233')
print(result)

常用函数

from re import *

# 1. 常用函数
# 1） fullmatch(正则表达式, 字符串)      -  完全匹配，判断整个字符串是否符合正则表达式描述的规则，匹配成功返回匹配对象，匹配失败返回空
result = fullmatch(r'\d{3}', '234')
print(result)

# 2） match(正则表达式, 字符串)  -   匹配字符串开头，判断字符串开头是否符合正则表达式描述的规则，匹配成功返回匹配对象，匹配失败返回空
result = match(r'\d{3}', '823介绍数据库')
print(result)

# 3） search(正则表达式, 字符串)  - 获取字符串中第一个能够和正则匹配的子串，能找到返回匹配对象，找不到返回空
result = search(r'\d{3}', 'ba203还是678说')
print(result)

# 4） findall(正则表达式, 字符串)    -   获取字符串中所有满足正则的子串，返回一个列表，列表中的元素是字符串。
# 注意：如果正则表达式中有分组，会针对分组做自动捕获（只获取分组匹配到的结果）
result = findall(r'\d{3}', 'ba203还是678说kk0222jksn就是23311')
print(result)

# 5） finditer(正则表达式, 字符串)   -   获取字符串中所有满足正则的子串，返回一个迭代器，迭代器中的元素是每个子串对应的匹配对象
result = finditer(r'\d{3}', 'ba203还是678说kk0222jksn就是23311')
print(result)
# print(next(result))
print(list(result))

# 6） split(正则表达式, 字符串)   -  将字符串中所有满足正则的子串作为切割点对字符串进行切割
str1 = '123aMKnb嗑生嗑死aKKssa923b==='
# 将str1中的a和b作为切割点对字符串进行切割
result = split(r'a|b', str1)
print(result)       # ['123', 'MKn', '嗑生嗑死', 'KKss', '923', '===']


# 7）sub(正则表达式, 字符串1, 字符串2)  - 将字符串2中所有满足正则的子串都替换成字符串1
result = sub(r'\d+', '+', 'ba203还是678说kk0222jksn就是23311')
print(result)


message = '我草！你TM看不见吗？f u c k!'
result = sub(r'(?i)草|TM|f\s*u\s*c\s*k|sb|妈', '*', message)
print(result)


# 2.匹配对象
result = search(r'(\d{3})([A-Z]{2})', '-=2设计师234KM222哈哈宿舍239KH')
print(result)       # <re.Match object; span=(6, 11), match='234KM'>

# 1)直接获取整个正则表达式对应的匹配结果: 匹配对象.group()
print(result.group())       # '234KM'

# 2)手动捕获某个分组对应的匹配结果: 匹配对象.group(分组数)
print(result.group(1))      # '234'
print(result.group(2))      # 'KM'

# 3）获取匹配结果在原字符串中的位置: 匹配对象.span()
print(result.span())            # (6, 11)
print(result.span(2))           # (9, 11)


# 3.参数
# 1)匹配忽略大小写: (?i)
result = fullmatch(r'(?i)abc', 'AbC')
print(result)

# 2)单行匹配: (?s) (了解！)
"""
多行匹配(默认)：匹配的时候.不能和换行(\n)进行匹配
单行匹配：匹配的时候.可以和换行(\n)进行匹配
"""
result = fullmatch(r'abc.123', 'abc\n123')
print(result)       # None

result = fullmatch(r'(?s)abc.123', 'abc\n123')
print(result)       # <re.Match object; span=(0, 7), match='abc\n123'>