python爬虫进阶正则表达式库（Re库）的操作符和函数详解

最新推荐文章于 2022-08-01 17:58:04 发布

AlanSunJIN

最新推荐文章于 2022-08-01 17:58:04 发布

阅读量436

点赞数 1

文章标签： python 正则表达式字符串

本文链接：https://blog.csdn.net/weixin_45887687/article/details/106223666

版权

1 简介

python的正则表达式库即Re库是python的一个标准库，主要用于字符串的匹配。
正则表达式的表示类型：

操作符	实例
.
[ ]	[abc]，表示a、b、c，[a-z] 表示a到z单个字符
[^ ]	[^ abc] ，表示非a或b或c的单个字符
*	abc* ，表示ab, abc, abcc, abccc等
+	abc+，表示abc, abcc, abccc等
？	abc?，表示ab, abc
I	abc I def (字符与竖杠之间无空格，为了区分），表示abc, def
{m}	ab{2}c，表示abbc
{m, n}	ab{1,2}c, 表示abc，abbc
^	^abc，表示abc且在一个字符串的开头
$	abc$，表示abc且在一个字符串的结尾
()	(abc)，表示abc，（abc I def）表示abc， def
\d
\w

函数	说明
re.compile()	将正则表达式的字符串形式编译成正则表达式对象
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

regex = re.compile(pattern, flags=0)

re.search(pattern, string, flags=0)

re.mstch(pattern, string, flags=0)

re.findall(pattern, string, flags=0)

re.split(pattern, string, maxsplit=0, flags=0)

re.finditer(pattern, string, flags=0)

re.finditer(pattern, repl, string, count=0, flags=0)

常用标记	说明
re.I re.IGNORECASE	忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE	正则表达式中的^操作符能够将给定的字符串的每一行当作匹配开始
re.S re.DOTALL	正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

import re

match = re.search(r'A.*D', 'ABCDBBBCCDCS')
print(match.group(0))

在这里用.group(0)返回匹配正则表达式的结果
在这里插入图片描述

import re

match = re.search(r'A.*?D', 'ABCDBBBCCDCS')
print(match.group(0))

在这里插入图片描述

关注