4、认识正则表达式和re库

最新推荐文章于 2024-05-22 14:50:11 发布

原创最新推荐文章于 2024-05-22 14:50:11 发布 · 842 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #网络爬虫 #正则表达式

python网页爬虫学习笔记专栏收录该内容

4 篇文章

订阅专栏

本文介绍正则表达式的基础概念及Python中Re库的具体应用，包括常见语法、基本使用方法及高级技巧，如贪婪匹配与最小匹配。

regular expression regex RE

正则表达式：是用来简洁表达一组字符串的表达式（一行胜千言）。

正则表达式：

通用的字符串表达框架（就像数学规律题的公式）
简洁表达一组字符串
针对字符串表达“简洁”和“特征”思想的工具
判断某字符串的特征归属

作用：

表达文本类型的特征（病毒，入侵等）
查找或替换一组字符串
匹配字符串（主要作用）

使用：

编译：将符合正则表达式语法的字符串转换成正则表达式特征

2、正则表达式的语法

正则表达式：有字符和操作符构成，eg:P(Y|YT|YTH|YTHO)?N

[^] #排除某个字符

*和+的区别 #有无0次扩展

| #或符号

匹配IP地址的正则表达式：（IP地址分4段，每段0-255）

\d+.\d+.\d+.\d+.

\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}.

但是以上都不精确

精确写法：

0-99： [1-9]?\d

100-199：1\d{2}

200-249：2[0-4]\d

250-255：25[0-5]

(([1-9]?\d |1\d{2} |2[0-4]\d |25[0-5] ).){3}([1-9]?\d |1\d{2} |2[0-4]\d |25[0-5] )

3、Re库的基本使用

Re库是Pyhton的标准库，主要用于字符串匹配

Re库是采用raw string 类型的正则表达式，其形式为 r'*****' #红色部分填入正则表达式

例如：

我国邮编： r'[1-9]\d{5}'

注意： raw string 是不包含转义字符的的字符串

Re库的主要功能函数

re.search(pattern,string,flags = 0) #在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

pattern: 正则表达式的字符串或原生字符串表示

string：待匹配字符串

flag：正则表达式使用时的控制标记

eg：

import re

match = re.search(r'[1-9]\d{5}', 'yangpu 200433')

if match:

print(match.group(0))

结果输出：

200433

re.match(pattern,string,flags = 0) #从一个字符串的开始位置起匹配正则表达式，返回match对象

参数解释同上

eg：

import re

#注意，match，从头开始匹配，如若'yangpu 200433'，匹配结果应该为空

match = re.match(r'[1-9]\d{5}', '200433 yangpu')

if match:

print(match.group(0))

结果输出：

200433

re.findall(pattern,string,flags = 0) #搜索字符串，以列表类型返回全部能匹配的子串

参数解释同上

eg：

import re

list = re.findall(r'[1-9]\d{5}', '200433 yangpu 510006 gzdxc')

print(list)

结果输出：

['200433', '510006']

re.split(pattern,string,maxsplit = 0,flags = 0) #将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

maxsplit：最大分割数，剩余部分作为最后一个元素输出

其他参数解释同上

eg：

import re

list = re.split(r'[1-9]\d{5}', 'yangpu 200433 gzdxc 510006')

list2 = re.split(r'[1-9]\d{5}', 'yangpu 200433 gzdxc 510006',maxsplit=1)

print(list,'\n',list2)

结果输出：

['yangpu ', ' gzdxc ', '']

['yangpu ', ' gzdxc 510006']

re.finditer (pattern,string,flags = 0) #搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

参数解释同上

eg：

import re

for m in re.finditer(r'[1-9]\d{5}', 'yangpu 200433 gzdxc 510006'):

if m:

print(m.group(0))

结果输出：

200433

510006

re.sub(pattern,repl,string,count = 0,flags = 0) #在一个字符串中替换所匹配正则表达式的子串，返回替换后的字符串

repl：替换匹配字符串的字符串

count：匹配替换的最大次数

其他参数解释同上

eg：

import re

chg = re.sub(r'[1-9]\d{5}','zipcode','yangpu 200433 gzdxc 510006')

print(chg)

结果输出：

yangpu zipcode gzdxc zipcode

Re库的另一种等价用法：

上述为函数式用法：rst = re.search(r'[1-9]\d{5}','yangpu 200433')

等价于

面向对象用法：

pat = re.compile(r'[1-9]\d{5}' )

rst = pat.search('yangpu 200433' )

#这样会使得代码更加简洁，不用每次都要写上正则表达式

re.compile(pattern,flags = 0) #将正则表达式的字符串形式编译成正则表达式对象

pattern: 正则表达式的字符串或原生字符串表示

flag：正则表达式使用时的控制标记

regex = re.compile(pattern,flags = 0)

那么regex正则表达式对象就可以使用以下6种方法/函数，此时，不需要给出pattern参数，将该参数去掉即可

4、Re库的match对象

match对象：一次匹配的结果，其包含很多相关信息

import re

chg = re.search(r'[1-9]\d{5}','yangpu 200433 gzdxc 510006')

if chg:

print(chg)

结果：

<_sre.SRE_Match object; span=(7, 13), match='200433'>

match对象的属性

match对象的方法

5、Re库的贪婪匹配和最小匹配

贪婪匹配：返回匹配中的最长子串；Re库默认贪婪匹配

eg：

import re

chg = re.search(r'PP.*N','PPANBNCNDNENFNGN')

if chg:

print(chg.group(0))

结果为：

PPANBNCNDNENFNGN

那么要获得最小匹配，也就是匹配中的最短子串，则需加个？ #前一个字符0或1次扩展

import re

chg = re.search(r'PP.*?N','PPANBNCNDNENFNGN')

if chg:

print(chg.group(0))

结果为：

PPAN

也就是说，要获得最小匹配，只要将正则表达式稍微修改一下，加个？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。