Python有关正则表达式的方法在re模块内,所以使用正则表达式需要先导入re模块。
import re # 导入re模块
建立搜寻字符串模式
正则表达式是一种文本模式的表达方法,在这个方法中使用\d表示0~9的数字字符,采用这个概念我们可以将前一节的手机号码xxxx-xxx-xxx改用下列正则表达方式表示:
'\d\d\d\d-\d\d\d-\d\d\d'
有逸出字符的概念可知,将上述表达式当字符串放入函数内须增加'\',所以整个正则表达式的使用方式如下:
'\\d\\d\\d\\d-\\d\\d\\d-\\d\\d\\d'
在字符串前加r可以防止字符串内的逸出字符被转译,所以又可以将上述正则表达式简化为下列格式:
r'\d\d\d\d-\d\d\d-\d\d\d'
使用re.compile()建立Regex对象
在re模块内有compile()方法,可以将搜寻字符串的正则表达式当作字符串放在此方法内,然后会回传一个Regex(Regular expressionn的简称)对象。如下所示:
phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d') # 建立phoneRule对象
search()方法
在Regex对象内有search()方法,可以由Regex对象启用,然后将欲搜寻的字符串放在这个方法内,沿用上述概念程序片段如下:
phoneNum = phoneRule.search(msg) # msg是欲搜寻的字符串
如果找不到比对相符的字符串会回传None,如果找到了会将结果回传所设定的phoneNum变量对象,这个对象在Python中称之为MatchObject对象。
# 使用正则表达式重新设计2.py
import re
msg1 = 'Please call me using 0970-919-883 or 0952-001-828'
msg2 = '请明天17:30和我一起参加科大教师节晚餐'
msg3 = '请明天17:30和我一起参加科大教师节晚餐,可以用0933-080-090联络我'
def parseString(string):
# 解析字符串是否含有电话号码
phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d')
phoneNum = phoneRule.search(string)
if phoneNum != None:
# 检查phoneNum内容
print(f"电话号码是:{phoneNum.group()}")
else:
print(f"'{string}' 字符串不含电话号码")
parseString(msg1)
parseString(msg2)
parseString(msg3)
search()方法只回传字符串中第一个比对相符的字符串。
在正则表达式——1.使用Python硬功夫搜寻文字_笨小古的博客-CSDN博客 中使用了较多的代码来做字符串解析,当使用了Python的正则表达式时,只用了两行代码便完成了字符串是否含有手机号码的解析。在这里不足的是msg1字符串内含有两组手机号码但是使用search()方法只回传了第一个符合的号码,下面将改良一下。
findall()方法
findalla()方法可以回传所有找到的手机号码,这个方法会将搜寻到的手机号码用列表方式回传,这样就不会只显示第一个搜寻到的手机号码的缺点,如果没有比对相符的号码就回传[]空列表。使用这个方法的关键指令如下:
phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d') # 建立phoneRule对象
phoneNum = phoneRule.findall(string) # string是欲搜寻的字符串
findall()函数由phoneRule对象启用,最后会将搜寻结果的列表传给phoneNum,只要打印phoneNum就可以得到执行结果。
import re
msg1 = 'Please call me using 0970-919-883 or 0952-001-828'
msg2 = '请明天17:30和我一起参加科大教师节晚餐'
msg3 = '请明天17:30和我一起参加科大教师节晚餐,可以用0933-080-090联络我'
def parseString(string):
# 解析字符串是否含有电话号码
phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d')
phoneNum = phoneRule.findall(string) # 用列表回传搜寻结果
if phoneNum != []: # 如果PhoneNum非空说明取得了号码
print(f"'{string}' 中的电话号码是: {phoneNum}") # 列表方式显示电话号码
else:
print(f"'{string}' 中没有电话号码")
parseString(msg1)
parseString(msg2)
parseString(msg3)
re模块
Python语言的re模块对于search()和findall()提供了更强的功能,可以省略使用re.compile()直接将比对模块放在各自的参数内,此时语法格式如下:
re.search(pattern, string, flags)
re.findall(pattern, string, flags)
pattern是欲搜寻的正则表达方式,string是所搜寻的字符串,flags可以省略。
import re
msg1 = 'Please call me using 0970-919-883 or 0952-001-828'
msg2 = '请明天17:30和我一起参加科大教师节晚餐'
msg3 = '请明天17:30和我一起参加科大教师节晚餐,可以用0933-080-090联络我'
def searchString(string):
# 使用search()方法解析字符串是否含有电话号码
pattern = r'\d\d\d\d-\d\d\d-\d\d\d'
phoneNum = re.search(pattern, string)
if phoneNum != None: # 如果PhoneNum非空说明取得了号码
print(f"'{string}' 中的电话号码是: {phoneNum}") # 列表方式显示电话号码
else:
print(f"'{string}' 中不含电话号码")
def findallString(string):
# 使用findall()方法解析字符串是否含有电话号码
pattern = r'\d\d\d\d-\d\d\d-\d\d\d'
phoneNum = re.findall(pattern, string)
if phoneNum != []: # 如果PhoneNum非空说明取得了号码
print(f"'{string}' 中的电话号码是: {phoneNum}") # 列表方式显示电话号码
else:
print(f"'{string}' 中不含电话号码")
searchString(msg1)
searchString(msg2)
searchString(msg3)
findallString(msg1)
findallString(msg2)
findallString(msg3)
目前的正则表达式所搜寻的字符串模式:r'\d\d\d\d-\d\d\d-\d\d\d'
可以看到\d重复出现,对于重复出现的字符串可以用大括号内部加上重复次数方式表达,所以上述可以用下列方式表达:
r'\d{4}-\d{3}-\d{3}'