正则(.*?)的简单运用

最新推荐文章于 2023-07-31 16:59:24 发布

清安无别事

最新推荐文章于 2023-07-31 16:59:24 发布

阅读量1.7k

点赞数

分类专栏： Python进阶内容文章标签：正则表达式

本文链接：https://blog.csdn.net/weixin_52040868/article/details/123893307

版权

Python进阶内容专栏收录该内容

35 篇文章 1 订阅

订阅专栏

这里是清安，之前我在jmeter文章中也提到了正则提取。这里呢，我们用代码简单来说说python中如何用正则快速的提取所需要的内容。

# -->>>清安<<<---

import re

context = '<a href="https://baidu.com">(你好啊)</a><p>我是清安</p>'

pat1 = r'href="(.*?)"'
res1 = re.findall(pattern=pat1, string=context, flags=re.S)
print(res1)

这里我列举了一个字符串，是HTML中的a标签以及p标签，问题不大，举例而已。

那么我想提取context的链接也就是https://baidu.com，应该这么办。

()：括起来的部分就是要提取的。

.：匹配任何字符串。

*：一次或多次。

？：不要太贪婪，在找到第一个匹配项后停止。

看了上述的介绍那么就不难知道了pat1中的href="是告诉它我需要从这个位置上开始取值，一直到"这里结束。那么取值出来的就是https://baidu.com。

那么有一种情况或者其他多种情况需要转义，这里介绍一种()，是需要进行转义的，一起来看看吧。

# -->>>清安<<<---

import re

context = '<a href="https://baidu.com">(你好啊)</a><p>我是清安</p>'

pat2 = '">\\((.*?)\\)</'
res1 = re.findall(pattern=pat2, string=context, flags=re.S)
print(res1)

这里的(你好啊)，我只想要你好啊，怎么办。这时候就需要转义了。怎么转义呢，加上\\就好了。并且告诉它我转义的是()，同意匹配其中的内容。

此外，flags=re.S，是匹配任何匹配任何字符，包括换行符。还有很多的用法。本篇就介绍到这了。