爬虫第3周——Re（正则表达式）库入门

最新推荐文章于 2022-07-07 10:04:50 发布

weixin_44318102

最新推荐文章于 2022-07-07 10:04:50 发布

阅读量162

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/weixin_44318102/article/details/105328812

版权

Python爬虫专栏收录该内容

11 篇文章 2 订阅

订阅专栏

正则表达式regular expression的概念
正则表达式：用来简洁表达一组字符串的表达式
正则表达式是一种通用的字符串表达框架
正则表达式是一种针对字符串表达“简洁”，“特征”思想的工具
可以用来判断字符串的特征归属
正则表达式的应用：在文本处理中十分常用

表达文本类型的特征（病毒，入侵）
同时查找或替换一组字符串
匹配字符串的全部或部分（主要应用）

正则表达式的使用
将符合正则表达式语法的字符串转换成正则表达式特征
正则表达式的语法
正则表达式语法有字符和操作符构成
正则表达式的常用操作符

操作符	说明	实例
.	表示任何单个字符
[]	字符集，对单个字符给出取值范围	[abc] 表示a,b,c;[a-z]表示a到z单个字符
[^ ]	非字符集，对单个字符给出排除范围	[^abc] 表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc* 表示ab，abc，abcc等
+	前一个字符1次或无限次扩展	abc+ 表示abc，abcc，abccc等
？	前一个字符0次或1次扩展	abc？表示ab，abc
1	左右表达式任意一个	abc1def 表示abc或def
{m}	扩展前一个字符m次	ab{2 }表示abb
{m,n}	扩展前一个字符m到n次（含n）	ab{1，2}c 表示abc，abbc
^	匹配字符串开头	^abc 表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$ 表示 abc且在一个字符串的结尾
()	分组标记，内部只能使用1操作符	（abc）表示abc，（abc1edf）表示abc或def
\d	数字，等价于[0-9]
\w	单词字符，等价于[A-Za-z0-9]

注：“1”其实是"|"
匹配IP地址的正则表达式
IP地址分四段，每段0~255：
\d+.\d+.\d+.\d+. 或\d{1,3}.d{1,3}.d{1,3}.d{1,3}.
精确写法：

范围	表示
0~99	[1-9]?\d
100~199	1\d{2}
200~249	2[0-4]\d
250~255	25[0-5]

故：
(（[1-9]?\d | 1\d{2} | 2[0-4]\d | 25[0-5]）.){3}（[1-9]?\d | 1\d{2} | 2[0-4]\d | 25[0-5]）

Re库的基本使用

Re是Python的标准库，主要用于字符串匹配

正则表达式的表示类型
一、raw string类型（原生字符串类型）
Re采用raw string类型表示正则表达式，表示为r’text’
raw string类型是不包含对转义符再次转义的字符串
二、string类型
表示为：’[1-9]\d{5}’
Re库主要功能函数

函数	说明
re. search()	在任一字符串中搜索正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.spilt()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match元素
re.sub()	在一个字符串中替换所有匹配正则表达式的字串，返回替换后的字符串

re.search(pattern,string,flags=0) 除re.spilt()，re.sub()外相同
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记

常用标记	说明
re.I re.IGNORECASE	忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE	正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
re.S re.DOTALL	正则表达式中的.操作符能够匹配所有字符，默认匹配换行符外的所有字符

re.spilt(pattern,string,maxspilt,flags=0)
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
maxspilt：最大分割数，剩余部分作为最后一个元素输出
flags：正则表达式使用时的控制标记

re.sub(pattern,repl,string,count=0,flags=0)
pattern：正则表达式的字符串或原生字符串表示
repl：替换匹配字符串的字符串
string：待匹配字符串
count：匹配的最大替换次数
flags：正则表达式使用时的控制标记
在这里插入图片描述

Re库的match对象
match对象是一次匹配的结果，包含匹配的很多信息
Match对象的属性

属性	说明
.string	待匹配的文本
.re	匹配时使用的patter对象即正则表达式
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置

Match对象的方法
|

方法	说明
.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end()	匹配字符串在原始字符串的结束位置
.span()	返回（.start()，.end()）

>>>import re
>>> m = re.search(r'[1-9]\d{5}','BIT 100081 TSD 100084')
>>> m.string
'BIT 100081 TSD 100084'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos	#待匹配字符串开始的序号
0
>>> m.endpos	#待匹配字符串结束的序号
21
>>> m.start()
4
>>> m.end()
10
>>> m.span()
(4, 10)
在这里插入代码片

Re库的贪婪匹配和最小匹配
在这里插入图片描述

weixin_44318102

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫第3周——Re（正则表达式）库入门

正则表达式regular expression的概念正则表达式：用来简洁表达一组字符串的表达式正则表达式是一种通用的字符串表达框架正则表达式是一种针对字符串表达“简洁”，“特征”思想的工具可以用来判断字符串的特征归属正则表达式的应用：在文本处理中十分常用表达文本类型的特征（病毒，入侵）同时查找或替换一组字符串匹配字符串的全部或部分（主要应用）正则表达式的使用将符合正则表达式...
复制链接

扫一扫