正则表达式-学习笔记02

最新推荐文章于 2024-06-08 13:16:10 发布

w哼哼怪

最新推荐文章于 2024-06-08 13:16:10 发布

阅读量241

点赞数

分类专栏：爬虫学习文章标签：正则表达式

本文链接：https://blog.csdn.net/wenboyu/article/details/78158574

版权

爬虫学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

re.search

re.search 扫整个字符串并返回第一个成功的匹配

content = 'Extra Stings Hello 1234567 World_This is a Regex Demo Extra Stings'
result = re.match('Hello.*?(\d+).*?Demo',content)    # 从开头开始匹配
print(result)
None


result = re.search('Hello.*?(\d+).*?Demo',content)    # 从字符串中找到
print(result)
<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>

为匹配方便，能用search就不用match

匹配练习

# 提取 齐秦 往事随风
html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''

res = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if res:
    print(res.group(1), res.group(2))    # 打印出2个括号的内容

齐秦 往事随风

# 去掉 active.*?

res = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)

if res:
    print(res.group(1), res.group(2))

任贤齐 沧海一声笑

# 却掉re.s 模式
# .* 匹配不到换行符 因此只能匹配到第一个 没有换行符内 容的 光辉岁月
res = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if res:
    print(res.group(1), res.group(2))

beyond 光辉岁月

re.findall

搜索字符串，以列表形式返回全部能匹配的子串

获取所有 a 节点的超链接、歌手和歌名

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)

print(results)
[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '<i class="fa fa-user"></i>但愿人长久')]

print(type(results))    # 返回结果是list
<class 'list'>

for result in results:    #遍历一次打印出每组信息
    print(result)

('/2.mp3', '任贤齐', '沧海一声笑')
('/3.mp3', '齐秦', '往事随风')
('/4.mp3', 'beyond', '光辉岁月')
('/5.mp3', '陈慧琳', '记事本')
('/6.mp3', '邓丽君', '<i class="fa fa-user"></i>但愿人长久')

re.sub（字符串替换）

替换字符串中每一个匹配的子串后返回替换后的字符串

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
# re.sub(正则表达式,新字符，原字符串）
content = re.sub('\d+','', content)    #匹配数字，替换为''为空
print(content)
Extra stings Hello  World_This is a Regex Demo Extra stings

替换目标，是原字符串本身或包含原字符串

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)',r'\1 8910', content) # \1表示 group1，保证是原生字符就在前面加一个r
print(content)
Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings

re.compile

将正则字符串编译成正则表达式对象
将一个正则表达式串编译成正则对象，以便用于复用该匹配模式

content = 'Hello 123 4567 World_This is a Regex Demo'
pattern = re.compile('Hello.*Demo', re.S)
res = re.match(pattern, content)
print(res)
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>

w哼哼怪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式-学习笔记02

re.searchre.search 扫整个字符串并返回第一个成功的匹配content = 'Extra Stings Hello 1234567 World_This is a Regex Demo Extra Stings'result = re.match('Hello.*?(\d+).*?Demo',content) # 从开头开始匹配print(result)Noneresu
复制链接

扫一扫

专栏目录