文章目录
新手的学习笔记,便于自己熟悉和记忆。
1、常用的匹配规则
模式 | 描述 |
---|---|
\w | 匹配字母、数字及下下划线 |
\W | 匹配不是字母、数字及下下划线的字符 |
\s | 匹配任意空白字符 |
\S | 匹配任意非空字符 |
\d | 匹配数字,等价于[0-9] |
\D | 匹配不是数字的字符 |
\A | 匹配字符串开头 |
\Z | 匹配字符串结尾的,如果存在换行,只匹配到换行前的结束字符串 |
\z | 匹配字符串结尾的,如果存在换行,同时匹配到换行符\n |
\G | 最后完成匹配的位置 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符(tab) |
^ | 匹配一行字符串的开头 |
$ | 匹配一行字符串的结尾 |
. | 匹配任意字符,除了换行符.当re.DOTALL标记被指定时,这可以匹配包括换行符在内的任字符 |
[…] | 用来表示一组字符,比如[abc]表示匹配a或b或c,[a-z],[0-9] |
[^…] | 匹配不在[]里面的字符,比如[^abc]匹配除a,b,c以外的字符 |
* | 匹配0个或多个字符 (.*)表示贪婪 |
+ | 匹配1个或多个字符 |
? | 匹配0个或1个前面的正则表达式片段,(.*?)表示非贪婪, |
{n} | 精确匹配前面n个前面的表达式,如\d{5}表示匹配5个数字 |
{n,m} | 匹配前面的表达式n到m次,贪婪模式 |
a | b |
(…) | 匹配括号里的表达式,也可以表示一个组 |
() | 匹配括号内的表达式,也表示一个组 |
2、 常用的方法
1、match(pattern, string, flags=0)
pattern:正则表达式内容。
string:被匹配的字符串。
flags:修饰符。
该方法会尝试从字符串的起始位置匹配表达式,如果匹配成功,就返回结果,反之返回None。
import re
# 定义一个字符串。
string = 'Hello 1234567 World This is a Regex Demo'
# 定义一个正则表达式的字符串
pattern = '^Hello.*?Demo$'
# 使用match(pattern, string, flags=0)方法
result = re.match(pattern, string)
print('文本长度:'+str(len(string)))
# 用.span()方法显示匹配结果的长度
print(result.span())
# 用.group()方法输出匹配的结果
print(result.group())
'''
输出结果如下:
文本长度:40
(0, 40)
Hello 1234567 World This is a Regex Demo
'''
转义匹配
如果在匹配文本中出现().*等符号时,在构建正则表达式时,应使用反斜线\进行转义。
例如
import re
string = '(百度)www.baidu.com'
pattern = '\(百度\)www\.baidu\.com'
result = re.match(pattern, string)
# 用.span()方法显示匹配结果的长度
print(result.span())
# 用.group()方法输出匹配的结果
print(result.group())
'''
输出结果如下:
(0, 17)
(百度)www.baidu.com
'''
修饰符
修饰符 | 描述 |
---|---|
re.I | (常用)使匹配对大小写不敏感 |
re.L | 做本地化识别(locale-aware) |
re.M | 多行匹配,影响^和$ |
re.S | (常用)使.匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符。这个标志影响\w,\W,\b和\B |
re.X | 该标志通过给与你更灵活的格式以便你将正则表达式写得更易于理解 |
2、search(pattern, string, flags=0):
match()方法是从字符串的开头开始匹配,一旦开头不匹配,那么整个匹配就会失败。这时候就需要用到search()方法。
实例入下:
import re
# 定义一个字符串。
string = 'Hello 1234567 World This is a Regex Demo'
result = re.match('ello.*?Demo$', string)
# 此时result匹配失败,结果为None.
print(result)
print("="*50)
# 使用search()方法匹配成功
result_search = re.search('ello.*?Demo$', string)
print(result_search)
'''
输出结果
None
==================================================
<_sre.SRE_Match object; span=(1, 40), match='ello 1234567 World This is a Regex Demo'>
'''
3、findall(pattern, string, flags=0):
前面的match(),search()方法都只能匹配一个结果,如果需要从字符串中匹配多个符合条件的结果,就需要用到findall()方法,
findall()方法会返回一个包含多个元祖的列表。