Python的re模块及正则表达式

最新推荐文章于 2023-01-02 19:47:42 发布

If I could Tell Yang

最新推荐文章于 2023-01-02 19:47:42 发布

阅读量114

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_44177600/article/details/109106815

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

re模块的主要方法：

re.compile: 编译一个正则表达式模式(pattern)
re.match: 从头开始匹配, 使用group()方法可以获取第一个匹配值
re.search: 用包含方式匹配，使用group()方法可以获取第一个匹配值
re.findall: 用包含方式匹配，把所有匹配到的字符放到以列表中的元素返回多个匹配值
re.sub: 匹配字符并替换
re.split: 以匹配到的字符当做列表分隔符，返回列表

Python正则表达式符号意义：

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{ n}	精确匹配 n 个前面表达式。例如， o{2} 能匹配 “food” 中的两个 o。
{ n,}	匹配 n 个前面表达式。例如， o{2,} 能匹配 "foooood"中的所有 o。“o{1,}” 等价于 “o+”。“o{0,}” 则等价于 “o*”。
{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a \b	匹配a或b
()	匹配括号内的表达式，也表示一个组
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束

re.compile方法：

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。其函数包含两个参数，一个pattern，一个可选参数flags。

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式

flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释

re.match和re.search方法：

re.match和re.search方法类似，唯一不同的是re.match从头匹配，re.search可以从字符串中任一位置匹配。如果有匹配对象match返回，可以使用match.group()提取匹配字符串。

re.match(pattern, string)

re.search(pattern, string)

re.findall方法:

findall方法使用方法有两种，一种是pattern.findall(string) ，另一种是re.findall(pattern, string)。re.findall方法经常用于从爬虫爬来的文本中提取有用信息。
例1: pattern.findall(string) - 提取年份列表

>>> year_pattern = re.compile(r'\d{4}$') # 四位整数，匹配年份
>>> string1 = '我爱1998和1999年'
year_pattern.findall(string1)
['1998', '1999']

例2: re.findall(pattern, string) - 提取百度首页带有链接的关键词

import requests
response = requests.get('https://www.baidu.com')
urls = re.findall(r'<a.*>(.*)</a>', response.text,) # 获取带链接的关键词
for url in urls:
    print(url)

re.sub方法:

re.sub的使用方法是re.sub(pattern, new_string, current_string)。
下例展示了如何把年份替换为****。该方法经常用于去除空格，无关字符或隐藏敏感字符。

>>>year_pattern = re.compile(r'\d{4}$') # 四位整数，匹配年份
>>>string1 = '我爱1998和1999年'
>>>replaced_str = re.sub(year_pattern, '****', string1)
print(replaced_str)
我爱****和****年

re.split方法:

re.split的使用方法是re.split(pattern, string)，返回分割后的字符串列表。re.split方法并不完美，比如下例中分割后的字符串列表首尾都多了空格，需要手动去除。

>>> string1 = "1cat2dogs3cats4"
>>> import re
>>> list1 = re.split(r'\d+', string1)
>>> print(list1)
['', 'cat', 'dogs', 'cats', '']

If I could Tell Yang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python的re模块及正则表达式

re模块的主要方法：re.compile: 编译一个正则表达式模式(pattern)re.match: 从头开始匹配, 使用group()方法可以获取第一个匹配值re.search: 用包含方式匹配，使用group()方法可以获取第一个匹配值re.findall: 用包含方式匹配，把所有匹配到的字符放到以列表中的元素返回多个匹配值re.sub: 匹配字符并替换re.split: 以匹配到的字符当做列表分隔符，返回列表Python正则表达式符号意义：模式描
复制链接

扫一扫

专栏目录