三、正则表达式的基本用法

最新推荐文章于 2024-02-21 23:51:23 发布

七月的summer

最新推荐文章于 2024-02-21 23:51:23 发布

阅读量471

点赞数

分类专栏： python爬虫读书笔记文章标签：正则表达式 python

本文链接：https://blog.csdn.net/weixin_45126474/article/details/106911386

版权

读书笔记同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

python爬虫

3 篇文章 0 订阅

订阅专栏

正则表达式

正则表达式是用一定的规则将特定的文本提取初来，是处理字符串的强大工具。

开源中国提供的正则表达式测试工具

常用的匹配规则

一.match()

向match()传入要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否匹配字符串。
match()方法默认从字符串的起始位置匹配正则表达式，如果匹配，就返回匹配的结果，否则就返回None。

第一个参数是正则表达式，第二个参数是要匹配的字符串。

import re
content='Hello 123 4567 World_This is a Regex Demo'
result=re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(len(content))
print(result)
print(result.group())
print(result.span())

41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

\s匹配空白字符(空格），\d匹配匹配数字，\w匹配字母数字下划线。span()方法可以输出匹配的范围，即匹配到的结果在原字符串中的位置范围。

1.匹配目标

content=‘Hello 1234567 World_This is a Regex Demo’
想从字符串中提取一部分内容，在正则表达式中使用()将想提取的字符串括起来。
把字符串中的1234567提取出来

import re
content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

（）标记了一个子表达式的开始和结束位置，被标记的子表达式依次对应一个分组，调用group()方法传入分组的索引即可获取提取的结果。
group()会输出完整的匹配结果。如果正则表达式后还有()包括的内容，可以用group(2)、group(3)等来获取。

2.通用匹配

万能匹配符：.*(点星）
.（点）可以匹配任意字符(除换行符）
*（星）代表匹配前面的字符无限次，≥0
组合在一起就是匹配任意字符无限次。

import re
content='Hello 123 4567 World_This is a Regex Demo'
result=re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())

<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

result=re.match(’^Hello.*Demo$’,content)
实际上匹配以Hello开头，以Demo结尾的字符串。
.*简化了正则表达式的书写。

3.贪婪和非贪婪

使用.*时，有时会无法得到想要的结果。
仍然要提取content中的数字：

import re
content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^He.*(\d+).*Demo$',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
Hello 1234567 World_This is a Regex Demo
7
(0, 40)

group(1)输出只有7，是因为在贪婪匹配下，.*会尽可能匹配多的字符，而.*后的\d+，即至少一个数字，.*尽可能匹配多的字符，把123456匹配了，给\d只留下一个满足条件的数字7。

做匹配的时候尽量使用非贪婪匹配，在第一个点星后加一个?，就转变为非贪婪匹配:尽可能匹配少的字符。

import re
content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^He.*?(\d+).*Demo$',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
Hello 1234567 World_This is a Regex Demo
1234567
(0, 40)

.*？匹配到Hello后面的空白字符时，再往后的字符就是数字了，而\d+恰好可以匹配，点星到这里就不再匹配，由\d+去匹配后面的数字，此时\d+的结果就是1234567了。

如果.*？匹配的字符串在结尾，点星就有可能匹配不到任何内容了，因为它会匹配尽可能少的字符。

4.修饰符

正则表达式的第三个参数可以为修饰符，来控制匹配的模式。

import re
content='''Hello 1234567 World_This
is a Regex Demo'''
result=re.match('^He.*?(\d+).*?Demo$',content)
print(result)
print(result.group())
print(result.group(1))

None
Traceback (most recent call last):
  File "c:/work/pyspider/exe_5.py", line 37, in <module>
    print(result.group())
AttributeError: 'NoneType' object has no attribute 'group'

当在字符串中加入了换行符时，result为None,这时是因为.匹配的是除换行符以外的任意字符。
加入一个修饰符：re.S

import re
content='''Hello 1234567 World_This
is a Regex Demo'''
result=re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group())
print(result.group(1))

<re.Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
Hello 1234567 World_This
is a Regex Demo
1234567

加上re.S就可以修正这个错误，匹配出正确结果。
re.S在网页匹配中经常用到。因为HTML节点经常会有换行，加上它，就可以匹配节点和节点之间的换行了。
修饰符

在网页匹配中，常用的有re.S，re.I。

5.转义匹配

.匹配除换行符以外的任意字符，但是如果目标字符串含.时，就要用到转义匹配了。

import re
content='(百度)www.baidu.com'
result=re.match('\(百度\)www\.baidu\.com',content)
print(result)
print(result.group())

<re.Match object; span=(0, 17), match='(百度)www.baidu.com'>
(百度)www.baidu.com

用\.匹配.，成功匹配到了原字符串。
遇到正则匹配模式的特殊字符时，再前面加\转义以一下即可。

二.search(）

mtch()方法是从字符串的开头开始匹配的，如果开头不匹配，那么匹配失败。
match()更适合用来检测某个字符串是否符合某个正则表达式的规则。

import re
content='Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'
result=re.match('Hello.*?(\d+).*?Demo',content)
print(result)
print(result.group())
print(result.group(1))

None
Traceback (most recent call last):
  File "c:/work/pyspider/exe_5.py", line 48, in <module>
    print(result.group())
AttributeError: 'NoneType' object has no attribute 'group'

result返回为None，因为match()是从头开始匹配。
search()方法在匹配时会扫描整个字符串，然后返回第一个成功匹配的结果。
如果搜索完了还没有找到，就返回None。

将上面代码的match()改成search()后：

<re.Match object; span=(14, 54), match='Hello 1234567 World_This is a Regex Demo'>     
Hello 1234567 World_This is a Regex Demo
1234567

为了匹配方便，应尽量使用search()方法。

三.findall()

search()返回匹配正则表达式的第一个内容，fingall()返回所有内容。
提取html中class为active的li节点内部的超链接包含的歌手名和歌名。

import re 
html = '''<div id="songs-list">
<h2 class="title"> 经典老歌 </h2>
<p class="introduction">经典老歌列表</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 
</li>
<li data-view="7"><a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
</li>
<li data-view="4" class="active"><a href="/3.mp3" singer="齐秦"> 往事随风 </a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond"> 光辉岁月 </a>
</li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳"> 记事本 </a>
</li>
<li data-view="5"><a href="/6.mp3" singer="邓丽君"> 但愿人长久 </a>
</li>
</ul>
</div>'''
#提取class为active的li节点内部的超链接包含的歌手名和歌迷
#<li data-view="7">
#<a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
#</li>
result=re.search('<li.*?active.*?singer="(.*?)">\s(.*?)</a>',html,re.S)
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))

<re.Match object; span=(123, 294), match='<li data-view="2"> 一路上有你 </li>\n<li data-view="7">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦"> 往事随风 </a>
齐秦
往事随风

<li.*?active.*?singer="(.*?)">\s(.*?)
匹配到第一个符合条件的目标。

四.findall()

获取上面HTML文本所有a节点的超链接、歌手和歌名，可以将search()方法换成findall()方法。
如果有返回结果，就是列表类型，需要遍历依次获取每组内容。

results=re.findall('<a.*?href="(.*?)".*?singer="(.*?)">\s(.*?)</a>',html,re.S)
print(results)
for result in results:    
print(result)    
print(result[0],result[1],result[2])

[('/2.mp3', '任贤齐', '沧海一声笑 '), ('/3.mp3', '齐秦', '往事随风 '), ('/4.mp 人长久 4.mp3', 'beyond', '光辉岁月 '), ('/5.mp3', '陈慧琳', '记事本 '), ('/6.mp3'邓  , '邓丽君', '但愿人长久 ')]
('/2.mp3', '任贤齐', '沧海一声笑 ')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风 ')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月 ')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本 ')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久 ')
/6.mp3 邓丽君 但愿人长久

results是由5个元组组成的列表。

五.sub()

正则表达式除了提取信息以外，还用来修改文本。
例如把一串文本中的所有数字都去掉，可以用sub()方法。

import re content='54cnuriKhc89hdu56lih'
result=re.sub('\d+','',content)
print(result)

cnuriKhchdulih

上例去掉了原字符串中的所有数字。
sub()的第一个参数是正则表达式，第二个参数是替换成的字符串，第三个参数是原字符串。
获取HTML文本中所有li节点的歌名，直接用正则表达式比较繁琐，用sub()方法比较简单。
用sub()方法去掉a节点，只保留文本，再用findall()提取文本。

h=re.sub('<a.*?>|</a>','',html)
#print(h)
results=re.findall('<li.*?>(.*?)</li>',h,re.S)
print(results)
for result in results:    
print(result.strip())

[' 一路上有你 ', '\n 沧海一声笑 \n', '\n 往事随风 \n', ' 光辉岁月 ', ' 记 
事本 ', '\n 但愿人长久 \n']
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

去掉a节点后的h：

<div id="songs-list">
<h2 class="title"> 经典老歌 </h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
 沧海一声笑
</li>
<li data-view="4" class="active">
 往事随风
</li>
<li data-view="6"> 光辉岁月 </li>
<li data-view="5"> 记事本 </li>
<li data-view="5">
 但愿人长久
</li>
</ul>
</div>

六.compile()

将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。
将三个日期中的时间去掉，用sub()，但是sub()的第一个参数是正则表达式，没有必要写3个一样的正则表达式。用compile()方法将正则表达式编译成一个正则表达式对象。

import re
content1='2020-06-23 21:00'
content2='2020-06-25 21:30'
content3='2020-06-27 22:00'
pattern=re.compile('\d{2}:\d{2}')
result1=re.sub(pattern,'',content1)
result2=re.sub(pattern,'',content2)
result3=re.sub(pattern,'',content3)
print(result1,result2,result3)

2020-06-23  2020-06-25  2020-06-27

compile()还可以传入修饰符，re.S等，在search()、findall()等方法中就不需要额外传了。

七.Tips

match()从头开始匹配。
search()返回第一个匹配目标结果。
findall()返回所有匹配的目标结果。
sub()通过正则表达式替换原字符串中的某部分。
compile()对要多次使用的相同的正则表达式构建正则表达式对象，以便复用。

七月的summer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
三、正则表达式的基本用法

正则表达式正则表达式是用一定的规则将特定的文本提取初来，是处理字符串的强大工具。开源中国提供的正则表达式测试工具常用的匹配规则一.match()向match()传入要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否匹配字符串。match()方法默认从字符串的起始位置匹配正则表达式，如果匹配，就返回匹配的结果，否则就返回None。第一个参数是正则表达式，第二个参数是要匹配的字符串。import recontent='Hello 123 4567 World_This is a Re
复制链接

扫一扫