Python高级——正则表达式与re模块

最新推荐文章于 2022-08-02 05:34:59 发布

HMMHMH

最新推荐文章于 2022-08-02 05:34:59 发布

阅读量553

点赞数 1

分类专栏：学习笔记文章标签： Python 正则表达式 re模块

本文链接：https://blog.csdn.net/zsh142537/article/details/82558238

版权

学习笔记专栏收录该内容

64 篇文章 1 订阅

订阅专栏

正则表达式

构成
原子（普通字符，如英文字符）
元字符（有特殊功用的字符）
模式修正字符

1.匹配单个字符

字符	功能
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，\t-tab键 \n-换行
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

2.匹配多个字符

字符	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,n}	匹配前一个字符出现从m到n次

3.匹配开头和结尾字符

字符	功能
^	匹配字符串开头，注意^[4-7] 和 [ ^4-7]的区别
$	匹配字符串结尾

4.匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

()分组提取：

import re
# 提取区号和电话号码
result = re.match("(\d{3,4})-(\d{7,8})", "010-12345678")
# 判断匹配结果
if result:
    print(result.group(1))
    print(result.group(2))

else:
    print("匹配失败！")

这里写图片描述
\引用分组：(匹配分组内信息)

import re
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
if ret:
    print(ret.group())
else:
    print("匹配失败！")

这里写图片描述
分组起名及引用：

import re
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>")
if ret:
    print(ret.group())
else:
    print("匹配失败！")
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h2></html>")
if ret:
    print(ret.group())
else:
    print("匹配失败！")

这里写图片描述

5.贪婪和非贪婪
贪婪：符合正则条件时，尽可能多的匹配
非贪婪：符合正则条件时，尽可能少的匹配
默认贪婪，非贪婪在”*”,”?”,”+”,”{m,n}”后加?

import re
result = re.match(r"aaa(\d+)", "aaa123456")
if result:
    print(result.group())
else:
    print("匹配失败～！")
result = re.match(r"aaa(\d+?)", "aaa123456")
if result:
    print(result.group())
else:
    print("匹配失败～！")

这里写图片描述

6.r的作用
Python中字符串前面加上 r 表示原生字符串，防止转义字符\的干扰

print('abc\\')
print(r'abc\\')

这里写图片描述

re模块

1.match：
格式：re.match(pattern, string, flags=0)
从头开始匹配一个对象，匹配成功返回对象，失败返回None
pattern：正则模型
string：要匹配的字符串
flags：匹配模式

match匹配成功返回一个对象，对象的方法如下：
group()：返回被匹配的字符串
start()：返回匹配开始的位置
end()：返回匹配结束的位置
span()：返回一个元组包含匹配 (开始,结束) 的位置

2.search：
格式：re.search(pattern, string, flags=0)
找到第一个匹配然后返回，如果字符串没有匹配，则返回None

3.findall：
格式：re.findall(pattern, string, flags=0)
遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表

4.sub：
格式：re.sub(pattern, repl, string, count)
替换string中每一个匹配的子串后返回替换后的字符串
repl：替换后的字符串
count：最大替换次数

5.split：
格式：re.split(pattern, string, maxsplit)
按照能够匹配的子串将string分割后返回列表
maxspli：最大切割次数

HMMHMH

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python高级——正则表达式与re模块

正则表达式构成原子（普通字符，如英文字符）元字符（有特殊功用的字符）模式修正字符1.匹配单个字符字符功能 . 匹配任意1个字符（除了\n） [ ] 匹配[ ]中列举的字符 \d 匹配数字，即0-9 \D 匹配非数字，即不是数字 \s 匹配空白，即空格，\t-tab键 \n-换行 \S ...
复制链接

扫一扫