Python 从入门到实战17（正则表达式操作）

立黄昏粥可温

于 2024-09-14 19:53:40 发布

阅读量303

点赞数 13

分类专栏： Python 从入门到精通文章标签：正则表达式 python

本文链接：https://blog.csdn.net/weixin_45999406/article/details/142265415

版权

Python 从入门到精通专栏收录该内容

17 篇文章 3 订阅

订阅专栏

我们的目标是：通过这一套资料学习下来，通过熟练掌握python基础，然后结合经典实例、实践相结合，使我们完全掌握python，并做到独立完成项目开发的能力。

上篇文章我们讨论了正则表达式的语法。今天进一步讨论一下正则表达式的一些操作。也是经常会用到的。

1、匹配字符串-match()方法

在python中match()方法用于从字符串的开始处进行匹配，如果起始位置匹配成功，则返回match对象，否在返回none

语法： re.match(pattern,string,[flags])

说明： pattern ---模式字符串，有要匹配的正则表达式转换而来

string ----要匹配的字符串

flags ----可选参数，表示标志位。用于控制匹配方式，如是否区分字母大小写。

例如写I为不区分大小写。

举例说明：

import re

#匹配字符串是否以www开头的
baidu_add ='www.baidu.com'
baidu_addr = "WWw.baidu.com"
myname = 'Wdevi'
pattern_www = r'WWW.+' #模式字符串
match1 = re.match(pattern_www,baidu_addr,re.I)
print(match1)
match2 = re.match(pattern_www,baidu_add,re.I)
print(match2)
match3 = re.match(pattern_www,myname,re.I)
print(match3)

输出结果：前两个字符串都能匹配，第三个显然不匹配：

2、匹配字符串-search()方法

在python中search()方法用于在整个字符串中搜索第一个要匹配的值，如果起始位置匹配成功，则返回match对象，否则返回none

和match()方法最大不同之处，search()是可以整个字符串中进行匹配的搜索。

语法格式：re.match(pattern,string,[flags])

说明：pattern ----模式字符串，有要匹配的正则表达式转换而来

string ----要匹配的字符串

flags ----可选参数，表示标志位。用于控制匹配方式，如是否区分字母大小写。

例如写I为不区分大小写。

举例说明：

import re
#匹配字符串是否以www开头的
baidu_add ='www.baidu.com'
baidu_addr = "百度网址：WWw.baidu.com"
pattern_www = r'WWW.+' #模式字符串
match1 = re.search(pattern_www,baidu_add,re.I)
print(match1)
match2 = re.search(pattern_www,baidu_addr,re.I)
print(match2)

输出结果：

举例说明，

import re
#搜索广告中敏感词汇，若是有“最好”，“最优秀”，“遥遥领先”，输出有敏感词。否则无敏感词
advertisement_xiaomi= "小米小米，销量天下第一！"
advertisement_huawei= "华为华为，科技遥遥领先，是宇宙中最优秀的手机！"
pattern = r"(最好)|(最优秀)|(遥遥领先)"
search_xiaomi = re.search(pattern,advertisement_xiaomi)
search_huawei = re.search(pattern,advertisement_huawei)
if search_xiaomi is None:
    print(advertisement_xiaomi,"无广告敏感词")
else:
    print(advertisement_xiaomi,"有广告敏感词")
if search_huawei is None:
    print(advertisement_huawei,"无广告敏感词")
else:
    print(advertisement_huawei,"有广告敏感词")

输出结果：很明显，华为中有广告敏感词。

3、匹配字符串-findall()方法

在python中findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串，且以列表的形式返回。如果匹配成功，则返回包含匹配结构的列表。

和match()方法最大不同之处，findall ()是可以整个字符串中进行匹配的搜索，匹配的都取出来放到列表中。

语法格式：re.findall(pattern,string,[flags])

说明：pattern ----模式字符串，有要匹配的正则表达式转换而来

string ----要匹配的字符串

flags ----可选参数，表示标志位。用于控制匹配方式，如是否区分字母大小写。

例如写I为不区分大小写。

举例说明：

#搜索广告中敏感词汇，若是有“最好”，“最优秀”，“遥遥领先”，输出有敏感词。否则无敏感词
#通过列表输出所有的敏感词
advertisement_huawei= "华为华为，科技遥遥领先，是宇宙中最优秀的手机！"
pattern = r"最好|最优秀|遥遥领先"
search_huawei = re.findall(pattern,advertisement_huawei)
print("华为广告语敏感词：",search_huawei)

输出结果：

另外，举个匹配网址的例子：

#如通过指定模式字符串匹配IP地址127.0.0.1
pattern_ip = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'
my_ip = '127.0.0.1 192.168.1.99'
match_all = re.findall(pattern_ip,my_ip)
print(match_all)

输出：

输出的是.1和.99两个元素，因为有括号分组的原因r'[1-9]{1,3}(\.[0-9]{1,3}){3}'

如是想输出完整的IP，需要整个模式字符串作为一组：r'([1-9]{1,3}(\.[0-9]{1,3}){3})'

#如通过指定模式字符串匹配IP地址127.0.0.1
pattern_ip = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'
pattern_ip1 = r'([1-9]{1,3}(\.[0-9]{1,3}){3})'
my_ip = '127.0.0.1 192.168.1.99'
match_all = re.findall(pattern_ip,my_ip)
print(match_all)
match_all1 = re.findall(pattern_ip1,my_ip)
print(match_all1)

输出参考：

可以循环打印出两个完整IP：

for item in match_all1:
print(item[0])

4、替换字符串-sub()方法

可以通过sub()方法实现字符串的替换。

语法：re.sub(pattern,repl,string,count,flags)

参数说明：

说明：pattern ----模式字符串，有要匹配的正则表达式转换而来

repl-----表示要替换展示的字符串

string ----要被查找替换的原始的字符串

count -----可选参数，表示可以被替换的最大次数。默认值0，表示替换所有匹配

flags ----可选参数，表示标志位。用于控制匹配方式，如是否区分字母大小写。

例如写I为不区分大小写。

举个例子：

import re
#客户的一些信息，假如要412开头身份证号码（这里不考虑15位或者结尾x的情况）
# 替换为412xxxxxxxxxxxxxxx
pattern = r'412[0-9]{15}'
string_cust = "客户的身份证：412724198901118789"
result = re.sub(pattern,"412xxxxxxxxxxxxxxx",string_cust)
print(result)

输出结果：

5、使用正则表达式分割字符串

可以使用split（）方法根据正则表达式来分割字符串，并且以列表的形式返回。

语法： re.split(pattern,string,[maxsplit],[flags])

说明：pattern ----模式字符串，有要匹配的正则表达式转换而来

string ----要被匹配的原始的字符串

maxsplit -----可选参数，表示最大的拆分次数

flags ----可选参数，表示标志位。用于控制匹配方式，如是否区分字母大小写。

例如写I为不区分大小写。

举例如下：

import re
#举例说明，分割请求接口地址：#http://ws.webxml.com.cn/ /MobileCodeWS.asmx?op=getDatabaseInfo

my_ip= 'http://ws.webxml.com.cn/MobileCodeWS.asmx?username="dewi"&pwd="123456"&op=getDatabaseInfo'
pattern = r"[?|&]"#以？或者&来分割字符串
result = re.split(pattern,my_ip) #按正则表达式分割url
print("url分割后：",result)

输出结果：