python3正则表达式

最新推荐文章于 2024-08-11 23:36:28 发布

. . . . .

最新推荐文章于 2024-08-11 23:36:28 发布

阅读量681

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/yexudengzhidao/article/details/85453154

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

python3正则表达式提供了内置的re模块

import re

re模块的内置方法：

1. findall

findall方法会找出所有的匹配后返回一个列表
例如：

import re

string = 'adfjalPythonsfja39fasf23rs'
res = re.findall('Python', string)
print(res)
res = re.findall('\d', string)
print(res)

结果为：
[‘Python’]
[‘3’, ‘9’, ‘2’, ‘3’]
其中 ‘Python’ 为普通字符， '\d’为元字符。

元字符有很多：

\D表示非数字
\n表示换行符
[abc]<=>[a-b]表示匹配a或b或c其中的任意一个
[^abc]表示既不是a也不是b也不是c
\w 等价于 [a-zA-Z0-9_] 匹配所有字符和数字和_
\W 和\w相反
\s匹配空白字符，如：’ ’ , ‘\n’ , ‘\t’, ‘\r’
. 匹配除了换行符(\n)之外的所有字符

数量词：

{里面指明匹配几个}
也可以指定{3, 6} 即3到6个，默认为贪婪模式
如果想用非贪婪模式，则可以{3, 6}?这样来表示
例如:

import re

string = 'python 1111java678php'
res = re.findall('[a-z]{3}', string)
print(res) #['pyt', 'hon', 'jav', 'php']
res = re.findall('[a-z]{3,6}', string)
print(res) #['python', 'java', 'php']
res = re.findall('[a-z]{3,6}?', string)
print(res) #['pyt', 'hon', 'jav', 'php']

贪婪模式与非贪婪模式

python默认为贪婪模式，即尽可能匹配的更多

匹配1次，0次或无限次

* 匹配前面字符0次或多次

import re
string = 'pytho123python&fapythonn*'
res = re.findall('python*', string)
print(res) #['pytho', 'python', 'pythonn']
res = re.findall('python+', string)
print(res) #['python', 'pythonn']
res = re.findall('python?', string)
print(res) #['pytho', 'python', 'python']

+ 匹配一次或多次

？匹配0次或一次（注意对于pythonn通过python？来匹配仍为python，因为python?只允许前面有一个或0个n，而python也是符合的。

边界匹配

^
$

组 ()

import re
string = 'pythonpythonpythonpython'
res = re.findall('(python){3}', string)
print(res) #['python']

参数模式匹配

re.I 忽略大小写
re.S 使用场景，对于.是可以匹配除了换行符的所有字符，但是当我们想匹配到换行符的时候就可以使用re.S来匹配到换行符。

import re
string = 'fajlC#\nfda33'
res = re.findall('c#', string, re.I)
print(res) #['C#']
res = re.findall('c#.{1}', string, re.I)
print(res)# []
res = re.findall('c#.{1}', string, re.I | re.S)
print(res) #['C#\n']

2 re.sub 正则替换

string = 'fajlC#33333'
res = re.sub('C#', 'go', string, count=0) #0默认值，代表匹配所有
print(res) # fajlgo33333

当然，也可以使用字符的replace方法

string = 'fajlC#33333'
res = string.replace('C#', 'go')
print(res)

re.sub()的第二个参数还可以是一个函数，这样就会更强大了

string = 'fajlC#33333'

def convert(val):
    pass
    
res = re.sub('C#', convert, string)
print(res)#fajl33333 #因为函数没有给我们返回值。

当然如果想获取匹配到的值，还需要通过group函数来获取

string = 'fajlC#33333'


def convert(val):
    matched = val.group()
    return "!!" + matched + "!!"

res = re.sub('C#', convert, string)
print(res)# fajl!!C#!!33333

3 search和match函数

search和match的区别：

search从整个字符串中搜索匹配的规则
match从字符串的开头匹配，如果匹配不到则返回None

相同点：

它俩只能匹配到第一次出现的匹配规则
匹配成功后都会返回一个对象，然后通过group()函数取值，通过span()函数取位置。

string = 'a23sdasfljf239efda'
res = re.match('\d', string)
print(res) #None
res = re.search('\d', string)
print(res) # <_sre.SRE_Match object; span=(1, 2), match='2'>
print(res.group()) #2
print(res.span()) # (1, 2)

关于匹配模式中的()

string = 'life is short, i use python'
res = re.findall('life.*python', string)
print(res) #['life is short, i use python']
res = re.findall('life(.*)python', string)
print(res) #[' is short, i use ']