三、正则表达式的基本用法

正则表达式

正则表达式是用一定的规则将特定的文本提取初来,是处理字符串的强大工具。

开源中国提供的正则表达式测试工具

常用的匹配规则

一.match()

向match()传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。
match()方法默认从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配的结果,否则就返回None。

第一个参数是正则表达式,第二个参数是要匹配的字符串。

import re
content='Hello 123 4567 World_This is a Regex Demo'
result=re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(len(content))
print(result)
print(result.group())
print(result.span())
41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

\s匹配空白字符(空格),\d匹配匹配数字,\w匹配字母数字下划线。span()方法可以输出匹配的范围,即匹配到的结果在原字符串中的位置范围。

1.匹配目标

content=‘Hello 1234567 World_This is a Regex Demo’
想从字符串中提取一部分内容,在正则表达式中使用()将想提取的字符串括起来
把字符串中的1234567提取出来

import re
content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

()标记了一个子表达式的开始和结束位置,被标记的子表达式依次对应一个分组,调用group()方法传入分组的索引即可获取提取的结果。
group()会输出完整的匹配结果。如果正则表达式后还有()包括的内容,可以用group(2)、group(3)等来获取。

2.通用匹配

万能匹配符:.*(点星)
.(点)可以匹配任意字符(除换行符)
*(星)代表匹配前面的字符无限次,≥0
组合在一起就是匹配任意字符无限次。

import re
content='Hello 123 4567 World_This is a Regex Demo'
result=re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())
<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

result=re.match(’^Hello.*Demo$’,content)
实际上匹配以Hello开头,以Demo结尾的字符串。
.*简化了正则表达式的书写。

3.贪婪和非贪婪

使用.*时,有时会无法得到想要的结果。
仍然要提取content中的数字:

import re
content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^He.*(\d+).*Demo$',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
Hello 1234567 World_This is a Regex Demo
7
(0, 40)

group(1)输出只有7,是因为在贪婪匹配下,.*会尽可能匹配多的字符,而.*后的\d+,即至少一个数字,.*尽可能匹配多的字符,把123456匹配了,给\d只留下一个满足条件的数字7。

做匹配的时候尽量使用非贪婪匹配,在第一个点星后加一个?,就转变为非贪婪匹配:尽可能匹配少的字符

import re
content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^He.*?(\d+).*Demo$',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
Hello 1234567 World_This is a Regex Demo
1234567
(0, 40)

.*?匹配到Hello后面的空白字符时,再往后的字符就是数字了,而\d+恰好可以匹配,点星到这里就不再匹配,由\d+去匹配后面的数字,此时\d+的结果就是1234567了。

如果.*?匹配的字符串在结尾,点星就有可能匹配不到任何内容了,因为它会匹配尽可能少的字符。

4.修饰符

正则表达式的第三个参数可以为修饰符,来控制匹配的模式。

import re
content='''Hello 1234567 World_This
is a Regex Demo'''
result=re.match('^He.*?(\d+).*?Demo$',content)
print(result)
print(result.group())
print(result.group(1))
None
Traceback (most recent call last):
  File "c:/work/pyspider/exe_5.py", line 37, in <module>
    print(result.group())
AttributeError: 'NoneType' object has no attribute 'group'

当在字符串中加入了换行符时,result为None,这时是因为.匹配的是除换行符以外的任意字符
加入一个修饰符:re.S

import re
content='''Hello 1234567 World_This
is a Regex Demo'''
result=re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group())
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
Hello 1234567 World_This
is a Regex Demo
1234567

加上re.S就可以修正这个错误,匹配出正确结果。
re.S在网页匹配中经常用到。因为HTML节点经常会有换行,加上它,就可以匹配节点和节点之间的换行了。
修饰符

在网页匹配中,常用的有re.S,re.I。

5.转义匹配

.匹配除换行符以外的任意字符,但是如果目标字符串含.时,就要用到转义匹配了。

import re
content='(百度)www.baidu.com'
result=re.match('\(百度\)www\.baidu\.com',content)
print(result)
print(result.group())
<re.Match object; span=(0, 17), match='(百度)www.baidu.com'>
(百度)www.baidu.com

用\.匹配.,成功匹配到了原字符串。
遇到正则匹配模式的特殊字符时,再前面加\转义以一下即可。

二.search()

mtch()方法是从字符串的开头开始匹配的,如果开头不匹配,那么匹配失败。
match()更适合用来检测某个字符串是否符合某个正则表达式的规则

import re
content='Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'
result=re.match('Hello.*?(\d+).*?Demo',content)
print(result)
print(result.group())
print(result.group(1))
None
Traceback (most recent call last):
  File "c:/work/pyspider/exe_5.py", line 48, in <module>
    print(result.group())
AttributeError: 'NoneType' object has no attribute 'group'

result返回为None,因为match()是从头开始匹配。
search()方法在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果
如果搜索完了还没有找到,就返回None。

将上面代码的match()改成search()后:

<re.Match object; span=(14, 54), match='Hello 1234567 World_This is a Regex Demo'>     
Hello 1234567 World_This is a Regex Demo
1234567

为了匹配方便,应尽量使用search()方法。

三.findall()

search()返回匹配正则表达式的第一个内容,fingall()返回所有内容。
提取html中class为active的li节点内部的超链接包含的歌手名和歌名。

import re 
html = '''<div id="songs-list">
<h2 class="title"> 经典老歌 </h2>
<p class="introduction">经典老歌列表</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 
</li>
<li data-view="7"><a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
</li>
<li data-view="4" class="active"><a href="/3.mp3" singer="齐秦"> 往事随风 </a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond"> 光辉岁月 </a>
</li>
<li data-view="5"><a href="/5.mp3" singer="陈慧琳"> 记事本 </a>
</li>
<li data-view="5"><a href="/6.mp3" singer="邓丽君"> 但愿人长久 </a>
</li>
</ul>
</div>'''
#提取class为active的li节点内部的超链接包含的歌手名和歌迷
#<li data-view="7">
#<a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
#</li>
result=re.search('<li.*?active.*?singer="(.*?)">\s(.*?)</a>',html,re.S)
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))
<re.Match object; span=(123, 294), match='<li data-view="2"> 一路上有你 </li>\n<li data-view="7">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦"> 往事随风 </a>
齐秦
往事随风 

<li.*?active.*?singer="(.*?)">\s(.*?)
匹配到第一个符合条件的目标。

四.findall()

获取上面HTML文本所有a节点的超链接、歌手和歌名,可以将search()方法换成findall()方法。
如果有返回结果,就是列表类型,需要遍历依次获取每组内容。

results=re.findall('<a.*?href="(.*?)".*?singer="(.*?)">\s(.*?)</a>',html,re.S)
print(results)
for result in results:    
print(result)    
print(result[0],result[1],result[2]) 
[('/2.mp3', '任贤齐', '沧海一声笑 '), ('/3.mp3', '齐秦', '往事随风 '), ('/4.mp 人长久 4.mp3', 'beyond', '光辉岁月 '), ('/5.mp3', '陈慧琳', '记事本 '), ('/6.mp3', '邓丽君', '但愿人长久 ')]
('/2.mp3', '任贤齐', '沧海一声笑 ')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风 ')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月 ')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本 ')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久 ')
/6.mp3 邓丽君 但愿人长久

results是由5个元组组成的列表。

五.sub()

正则表达式除了提取信息以外,还用来修改文本。
例如把一串文本中的所有数字都去掉,可以用sub()方法。

import re content='54cnuriKhc89hdu56lih'
result=re.sub('\d+','',content)
print(result)
cnuriKhchdulih

上例去掉了原字符串中的所有数字。
sub()的第一个参数是正则表达式,第二个参数是替换成的字符串,第三个参数是原字符串。
获取HTML文本中所有li节点的歌名,直接用正则表达式比较繁琐,用sub()方法比较简单
用sub()方法去掉a节点,只保留文本,再用findall()提取文本。

h=re.sub('<a.*?>|</a>','',html)
#print(h)
results=re.findall('<li.*?>(.*?)</li>',h,re.S)
print(results)
for result in results:    
print(result.strip())
[' 一路上有你 ', '\n 沧海一声笑 \n', '\n 往事随风 \n', ' 光辉岁月 ', ' 记 
事本 ', '\n 但愿人长久 \n']
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

去掉a节点后的h:

<div id="songs-list">
<h2 class="title"> 经典老歌 </h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
 沧海一声笑
</li>
<li data-view="4" class="active">
 往事随风
</li>
<li data-view="6"> 光辉岁月 </li>
<li data-view="5"> 记事本 </li>
<li data-view="5">
 但愿人长久
</li>
</ul>
</div>

六.compile()

将正则字符串编译成正则表达式对象,以便在后面的匹配中复用
将三个日期中的时间去掉,用sub(),但是sub()的第一个参数是正则表达式,没有必要写3个一样的正则表达式。用compile()方法将正则表达式编译成一个正则表达式对象

import re
content1='2020-06-23 21:00'
content2='2020-06-25 21:30'
content3='2020-06-27 22:00'
pattern=re.compile('\d{2}:\d{2}')
result1=re.sub(pattern,'',content1)
result2=re.sub(pattern,'',content2)
result3=re.sub(pattern,'',content3)
print(result1,result2,result3)
2020-06-23  2020-06-25  2020-06-27

compile()还可以传入修饰符,re.S等,在search()、findall()等方法中就不需要额外传了。

七.Tips

match()从头开始匹配。
search()返回第一个匹配目标结果。
findall()返回所有匹配的目标结果。
sub()通过正则表达式替换原字符串中的某部分。
compile()对要多次使用的相同的正则表达式构建正则表达式对象,以便复用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值