正则表达式——2.正则表达式的基础

Python有关正则表达式的方法在re模块内,所以使用正则表达式需要先导入re模块。

import re # 导入re模块

建立搜寻字符串模式

正则表达式是一种文本模式的表达方法,在这个方法中使用\d表示0~9的数字字符,采用这个概念我们可以将前一节的手机号码xxxx-xxx-xxx改用下列正则表达方式表示:

'\d\d\d\d-\d\d\d-\d\d\d'

有逸出字符的概念可知,将上述表达式当字符串放入函数内须增加'\',所以整个正则表达式的使用方式如下:

'\\d\\d\\d\\d-\\d\\d\\d-\\d\\d\\d'

在字符串前加r可以防止字符串内的逸出字符被转译,所以又可以将上述正则表达式简化为下列格式:

r'\d\d\d\d-\d\d\d-\d\d\d'

使用re.compile()建立Regex对象

在re模块内有compile()方法,可以将搜寻字符串的正则表达式当作字符串放在此方法内,然后会回传一个Regex(Regular expressionn的简称)对象。如下所示:

phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d')  # 建立phoneRule对象

search()方法

在Regex对象内有search()方法,可以由Regex对象启用,然后将欲搜寻的字符串放在这个方法内,沿用上述概念程序片段如下:

phoneNum = phoneRule.search(msg)  #  msg是欲搜寻的字符串

如果找不到比对相符的字符串会回传None,如果找到了会将结果回传所设定的phoneNum变量对象,这个对象在Python中称之为MatchObject对象。

# 使用正则表达式重新设计2.py
import re

msg1 = 'Please call me using 0970-919-883 or 0952-001-828'
msg2 = '请明天17:30和我一起参加科大教师节晚餐'
msg3 = '请明天17:30和我一起参加科大教师节晚餐,可以用0933-080-090联络我'

def parseString(string):
    # 解析字符串是否含有电话号码
    phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d')
    phoneNum = phoneRule.search(string)
    if phoneNum != None:
        # 检查phoneNum内容
        print(f"电话号码是:{phoneNum.group()}")
    else:
        print(f"'{string}' 字符串不含电话号码")

parseString(msg1)
parseString(msg2)
parseString(msg3)

 

search()方法只回传字符串中第一个比对相符的字符串。

正则表达式——1.使用Python硬功夫搜寻文字_笨小古的博客-CSDN博客 中使用了较多的代码来做字符串解析,当使用了Python的正则表达式时,只用了两行代码便完成了字符串是否含有手机号码的解析。在这里不足的是msg1字符串内含有两组手机号码但是使用search()方法只回传了第一个符合的号码,下面将改良一下。

findall()方法

findalla()方法可以回传所有找到的手机号码,这个方法会将搜寻到的手机号码用列表方式回传,这样就不会只显示第一个搜寻到的手机号码的缺点,如果没有比对相符的号码就回传[]空列表。使用这个方法的关键指令如下:

phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d')  # 建立phoneRule对象
phoneNum = phoneRule.findall(string)  # string是欲搜寻的字符串

findall()函数由phoneRule对象启用,最后会将搜寻结果的列表传给phoneNum,只要打印phoneNum就可以得到执行结果。

import re

msg1 = 'Please call me using 0970-919-883 or 0952-001-828'
msg2 = '请明天17:30和我一起参加科大教师节晚餐'
msg3 = '请明天17:30和我一起参加科大教师节晚餐,可以用0933-080-090联络我'


def parseString(string):
    # 解析字符串是否含有电话号码
    phoneRule = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d')
    phoneNum = phoneRule.findall(string)  # 用列表回传搜寻结果
    if phoneNum != []:  # 如果PhoneNum非空说明取得了号码
        print(f"'{string}' 中的电话号码是: {phoneNum}")  # 列表方式显示电话号码
    else:
        print(f"'{string}' 中没有电话号码")


parseString(msg1)
parseString(msg2)
parseString(msg3)

re模块 

Python语言的re模块对于search()和findall()提供了更强的功能,可以省略使用re.compile()直接将比对模块放在各自的参数内,此时语法格式如下:

re.search(pattern, string, flags)
re.findall(pattern, string, flags)

pattern是欲搜寻的正则表达方式,string是所搜寻的字符串,flags可以省略。

import re

msg1 = 'Please call me using 0970-919-883 or 0952-001-828'
msg2 = '请明天17:30和我一起参加科大教师节晚餐'
msg3 = '请明天17:30和我一起参加科大教师节晚餐,可以用0933-080-090联络我'


def searchString(string):
    # 使用search()方法解析字符串是否含有电话号码
    pattern = r'\d\d\d\d-\d\d\d-\d\d\d'
    phoneNum = re.search(pattern, string)
    if phoneNum != None:  # 如果PhoneNum非空说明取得了号码
        print(f"'{string}' 中的电话号码是: {phoneNum}")  # 列表方式显示电话号码
    else:
        print(f"'{string}' 中不含电话号码")


def findallString(string):
    # 使用findall()方法解析字符串是否含有电话号码
    pattern = r'\d\d\d\d-\d\d\d-\d\d\d'
    phoneNum = re.findall(pattern, string)
    if phoneNum != []:  # 如果PhoneNum非空说明取得了号码
        print(f"'{string}' 中的电话号码是: {phoneNum}")  # 列表方式显示电话号码
    else:
        print(f"'{string}' 中不含电话号码")


searchString(msg1)
searchString(msg2)
searchString(msg3)

findallString(msg1)
findallString(msg2)
findallString(msg3)

 

 目前的正则表达式所搜寻的字符串模式:r'\d\d\d\d-\d\d\d-\d\d\d'

可以看到\d重复出现,对于重复出现的字符串可以用大括号内部加上重复次数方式表达,所以上述可以用下列方式表达:

r'\d{4}-\d{3}-\d{3}'

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笨小古

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值