学习Python Day16 —— 正则表达式

学习Python Day16 —— 正则表达式

正则表达式是一种工具:一种专门用做字符串匹配的工具,能够在某些情况下能让字符串的处理变得非常简单。

正则表达式的语法

匹配符号

1.普通字符

2.“.” - 匹配任意一个字符

3.\d - 匹配任意一个数字字符

4.\D - 匹配任意一个非数字字符

5.\s - 匹配任意一个空白字符

6.\S - 匹配任意一个非空白字符

7.\w - 匹配任意一个数字、字母或者下划线(不好用,非ASCII码中的字符都可以匹配)

8.[字符集] - 匹配字符集中出现的任意一个字符

9.[^字符集] - 匹配不在字符集中的任意一个字符

注意:^在[]中,如果不是在开头就表示这个符号本身

检测符号

匹配符号要求一个符号必须对应一个字符,会影响字符串长度的描述

检测符号,不会匹配字符,也不会影响字符串长度,它是在匹配成功的前提下对指定位置的字符进行检测

1.\b - 检测是否是单词边界

2.\B - 检测是否不是单词边界

3.^ - 检测是否是字符串开头

4.$ - 检测是否是字符串结尾

匹配次数

1.* - 0或多次(任意次数)

2.+ - 1次或多次(至少1次)

3.? - 0次或1次

4.{}

{N} - 匹配N次
{M,N} - 匹配M到N次
{M,} - 匹配至少M次

5.贪婪和非贪婪

在匹配字数不确定的时候匹配模式就两种:贪婪(默认)和非贪婪(在不确定次数后面加?)

贪婪:在能匹配成功的前提下,匹配次数选最多的(+、、?、{M,N}、{M,}、{,N})
非贪婪:在能匹配成功的前提下,匹配次数选最少的(+?、
?、??、{M,N}?、{M,}?、{,N}?)

分组

1.( )

用法一:整体操作次数
a{2,3}
(ab){2,3}

用法二:重复
\M - 重复前面第M个分组中匹配到的内容

用法三:捕获
re.findall在获取子串的时候,如果正则中有分组,只会获取分组匹配到的结果

分支

1.|

正则1|正则2|正则3|…
先用正则1进行匹配,如果匹配成功整个正则就匹配成功;如果失败就用正则2进行匹配,
如果匹配成功整个正则就匹配成功;如果失败就用正则3进行匹配,以此类推…

转义符号

1.\

在在正则中有特殊意义的符号前加\,让这个符号在正则中功能消失

re模块

1.re.compile(正则表达式) - 编译正则表达式,返回正则对象

re_obj = re.compile(r"\d{3}")
# 正则表达式对象.fullmatch(字符串)
print(re_obj.fullmatch("123"))

# re.fullmatch(正则表达式,字符串)
print(re.fullmatch(r"\d{3}", "123"))

2.匹配

fullmatch(正则,字符串) - 让整个字符串和正则进行匹配,匹配失败返回None,匹配成功返回匹配对象
match(正则,字符串) - 让字符串开头和正则进行匹配,匹配失败返回None,匹配成功返回匹配对象

3.匹配对象

result = re.match(r"(\d{2})([a-z]{3})", "12acb4561地方")
print(result)
# 1)匹配到的子串
# 匹配对象.group() / 匹配对象.group(0)  - 获取整个正则匹配到的子串
# 匹配对象.group(N)     - 获取第N个分组匹配到的子串
print(result.group())       # 12acb
print(result.group(1))      # 12

# 2)匹配范围    - 匹配到的子串在原字符串中的下标范围
# 匹配对象.span()
print(result.span())    # (0, 5)
print(result.span(2))   # (2, 5)

4.查找

search(正则, 字符串) - 在字符串查找第一个满足正则的子串,如果找到了返回匹配对象,找不到返回None
findall(正则, 字符串) - 获取字符串中所有满足正则的子串,返回值是列表,列表中的元素是字符串或者元祖,找不到返回空列表
finditer(正则, 字符串)- 获取字符串中所有满足正则的子串,返回值是迭代器,迭代器中的元素是匹配对象

# 2)findall
# 没有分组:['123', '456']
print(re.findall(r"\d{3}", "fdvcd123db456考完放假哦"))

# 有一个分组:['123', '456']
print(re.findall(r"a(\d{3})", "fdvcda123dba456考完放假哦"))

# 有两个或两个以上的分组:[('da', '123'), ('ba', '456')]
print(re.findall(r"([a-z]{2})(\d{3})", "fdvcda123dba456考完放假哦"))

# 3)finditer

5.切割和替换

split(正则, 字符串) - 将字符串中满足正则的子串作为切割点
sub(正则, 字符串1, 字符串2) - 将字符串2中满足正则的子串全部替换成字符串1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值