python3正则表达式提供了内置的re模块
import re
re模块的内置方法:
1. findall
findall方法会找出所有的匹配后返回一个列表
例如:
import re
string = 'adfjalPythonsfja39fasf23rs'
res = re.findall('Python', string)
print(res)
res = re.findall('\d', string)
print(res)
结果为:
[‘Python’]
[‘3’, ‘9’, ‘2’, ‘3’]
其中 ‘Python’ 为普通字符, '\d’为元字符。
元字符有很多:
\D表示非数字
\n表示换行符
[abc]<=>[a-b]表示匹配a或b或c其中的任意一个
[^abc]表示既不是a也不是b也不是c
\w 等价于 [a-zA-Z0-9_] 匹配所有字符和数字和_
\W 和\w相反
\s匹配空白字符,如:’ ’ , ‘\n’ , ‘\t’, ‘\r’
. 匹配除了换行符(\n)之外的所有字符
数量词:
{里面指明匹配几个}
也可以指定{3, 6} 即3到6个,默认为贪婪模式
如果想用非贪婪模式,则可以{3, 6}?这样来表示
例如:
import re
string = 'python 1111java678php'
res = re.findall('[a-z]{3}', string)
print(res) #['pyt', 'hon', 'jav', 'php']
res = re.findall('[a-z]{3,6}', string)
print(res) #['python', 'java', 'php']
res = re.findall('[a-z]{3,6}?', string)
print(res) #['pyt', 'hon', 'jav', 'php']
贪婪模式与非贪婪模式
python默认为贪婪模式,即尽可能匹配的更多
匹配1次,0次或无限次
* 匹配前面字符0次或多次
import re
string = 'pytho123python&fapythonn*'
res = re.findall('python*', string)
print(res) #['pytho', 'python', 'pythonn']
res = re.findall('python+', string)
print(res) #['python', 'pythonn']
res = re.findall('python?', string)
print(res) #['pytho', 'python', 'python']
+ 匹配一次或多次
?匹配0次或一次(注意 对于pythonn通过python?来匹配仍为python,因为python?只允许前面有一个或0个n,而python也是符合的。
边界匹配
^
$
组 ()
import re
string = 'pythonpythonpythonpython'
res = re.findall('(python){3}', string)
print(res) #['python']
参数模式匹配
- re.I 忽略大小写
- re.S 使用场景,对于.是可以匹配除了换行符的所有字符,但是当我们想匹配到换行符的时候就可以使用re.S来匹配到换行符。
import re
string = 'fajlC#\nfda33'
res = re.findall('c#', string, re.I)
print(res) #['C#']
res = re.findall('c#.{1}', string, re.I)
print(res)# []
res = re.findall('c#.{1}', string, re.I | re.S)
print(res) #['C#\n']
2 re.sub 正则替换
string = 'fajlC#33333'
res = re.sub('C#', 'go', string, count=0) #0默认值,代表匹配所有
print(res) # fajlgo33333
当然,也可以使用字符的replace方法
string = 'fajlC#33333'
res = string.replace('C#', 'go')
print(res)
re.sub()的第二个参数还可以是一个函数,这样就会更强大了
string = 'fajlC#33333'
def convert(val):
pass
res = re.sub('C#', convert, string)
print(res)#fajl33333 #因为函数没有给我们返回值。
当然如果想获取匹配到的值,还需要通过group函数来获取
string = 'fajlC#33333'
def convert(val):
matched = val.group()
return "!!" + matched + "!!"
res = re.sub('C#', convert, string)
print(res)# fajl!!C#!!33333
3 search和match函数
search和match的区别:
- search从整个字符串中搜索匹配的规则
- match从字符串的开头匹配,如果匹配不到则返回None
相同点:
- 它俩只能匹配到第一次出现的匹配规则
- 匹配成功后都会返回一个对象,然后通过group()函数取值,通过span()函数取位置。
string = 'a23sdasfljf239efda'
res = re.match('\d', string)
print(res) #None
res = re.search('\d', string)
print(res) # <_sre.SRE_Match object; span=(1, 2), match='2'>
print(res.group()) #2
print(res.span()) # (1, 2)
关于匹配模式中的()
string = 'life is short, i use python'
res = re.findall('life.*python', string)
print(res) #['life is short, i use python']
res = re.findall('life(.*)python', string)
print(res) #[' is short, i use ']