python中正则表达式的应用大全

最新推荐文章于 2024-05-14 09:59:09 发布

HXH.py

最新推荐文章于 2024-05-14 09:59:09 发布

阅读量1.4k

点赞数 4

分类专栏： python积累文章标签： python 正则表达式应用

本文链接：https://blog.csdn.net/weixin_44850984/article/details/89407336

版权

python积累专栏收录该内容

33 篇文章 3 订阅

订阅专栏

正则表达式

应用场景

处理/判断用户提供的数据
爬虫（数据清洗）
快速提取数据

创建流程

导入re模块
match方法匹配
group提取

import re 

ret = re.match(正则表达式，需要处理的字符串)

ret.group()

匹配单个字符

在这里插入图片描述

注：

只取一位：
\d 一位数字（0-9）
[1-36-8] 连续数字可断开（只有一位等同于[123678]）（并不按顺序）
[1-8a-zA-Z] 连续数字及字母（大小写）
\w 数字字母下划线及中文等（“Unicode码”）
re.match(r"","",re.A) 不支持中文（“ASCII码”）（等价于[a-zA-Z0-9_]）
re.match(r"","",re.U) 支持中文
re.match(r"","",re.I) 支持大小写同时匹配

匹配多个字符

在这里插入图片描述

{} 规定输入位数
{1,3} 范围
{m,} 匹配前一个字符出现m到无限次
{,} 中 ,两侧不能有空格
？前测紧邻数据数据非必须输入
.* 除换行外任意多个字符
re.match(r"","",re.S) .情况下支持匹配\n

匹配开头结尾

在这里插入图片描述
注：

^{还可在[]式内部（非开头）表示**只要不是**>，eg."[}>]"；当匹配到>时，^>匹配停止，且并不取>。
$ 需匹配的字符串到$处停止

匹配分组

在这里插入图片描述
匹配分组的应用格式：

re.match(r"()()","").group(1,2)
re.match(r"()(|)","").groups(1)
re.match(r"(|)","").groups(1)

分组的应用：
\num：

thml_str = "<body><h1>yemian</h1></body>"
re.match(r"<(\w*)><(\w*)>.*</\2></\1>,thml_str").group()
'<body><h1>yemian</h1></body>'

(?P)(?P=name)：

thml_str = "<body><h1>yemian</h1></body>"
re.match(r"<(?P<p1>\w*)><(?P<p2>\w*)>.*</(?P=p2)></(?P=p2)>,thml_str").group()
'<body><h1>yemian</h1></body>'

python的贪婪和非贪婪

python正则表达式默认贪婪，Python会尽可能多的匹配信息
非贪婪：条件成立下，匹配越小越好
? 可将python模式调整为非贪婪
+ * ? {} 后面加上?，使贪婪变成非贪婪

r的作用

Python中字符串前⾯加上 r 表示原⽣字符串，表示r""内正则表达式的\不在作为转义字符

HXH.py

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
python中正则表达式的应用大全

正则表达式应用场景处理/判断用户提供的数据爬虫（数据清洗）快速提取数据创建流程导入re模块match方法匹配group提取import re ret = re.match(正则表达式，需要处理的字符串)ret.group()匹配单个字符注：只取一位：\d 一位数字（0-9）[1-36-8] 连续数字可断开（只有一位等同于[123678]）（并...
复制链接

扫一扫

专栏目录