简简单单正则表达式

在写这篇文章之前 我对正则表达式 一知半解,只要你跟着我的文章敲一遍,粗品其中的规则,应该对正则表达式有一个 质的飞跃 ;

re的匹配语法有以下几种
  • re.match 从头开始匹配. #意思是从头就应该有个手机号 要不然匹配都不到
  • re.search 匹配包含
  • re.findall 把所有匹配到的字符放到以列表中的元素返回
  • re.split 以匹配到的字符当做列表分隔符
  • re.sub 匹配字符并替换
  • re.fullmatch 全部匹配
  • .groups() 以列表的形式展示 相当于 re.findall
  • .groupdict()以字典的形式展示
  • .group() 匹配及展示
'.'     默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
'^'     匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$'     匹配字符结尾, 若指定flags MULTILINE ,re.search('foo.$','foo1\nfoo2\n',re.MULTILINE).group() 会匹配到foo1
'*'     匹配*号前的字符0次或多次, re.search('a*','aaaabac')  结果'aaaa'
'+'     匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?'     匹配前一个字符1次或0次 ,re.search('b?','alex').group() 匹配b 0次
'{m}'   匹配前一个字符m次 ,re.search('b{3}','alexbbbs').group()  匹配到'bbb'
'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|'     匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配, re.search("(abc){2}a(123|45)", "abcabca456c").group() 结果为'abcabca45'
'\A'    只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的,相当于re.match('abc',"alexabc") 或^
'\Z'    匹配字符结尾,同$ 
'\d'    匹配数字0-9
'\D'    匹配非数字
'\w'    匹配[A-Za-z0-9]
'\W'    匹配非[A-Za-z0-9]
's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
'(?P...)' 分组匹配 re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{4}

实践

"."默认匹配除\n之外的任意一个字符

>>> import re
>>> re.search(".","alex")
<re.Match object; span=(0, 1), match='a'>
>>> re.search(".","alex").group()
'a'
>>> re.search(".","%$!")
<re.Match object; span=(0, 1), match='%'>
>>> re.search(".","\n")
>>> re.search(".","\n").group()    #\n就没办法匹配   #group是把他打印出来
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

"^"以什么开头

>>> re.search("^alex$","alex1")   #^是以alex开头 $是以alex结尾
>>> re.search("^alex$","alex1").group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

“*” 匹配*号前面的字符0次或者多次

>>> re.search("a*","ddddadd")
<re.Match object; span=(0, 0), match=''>
>>> re.search("a*","addddadd")
<re.Match object; span=(0, 1), match='a'>
>>> re.search("a*","addddadd").group()
'a'
>>> re.search("a*","aaaaddddadd").group()    #开头就能匹配到
'aaaa'

“+” 匹配前一个字符1次活多次

>>> re.search("a+","aaaaddddadd").group()
'aaaa'
>>> re.search("a+","aaaaddddadd")
<re.Match object; span=(0, 4), match='aaaa'>
>>> re.search("a+","ddddadd")
<re.Match object; span=(4, 5), match='a'>
>>> re.search("a+","dddddd")

"?"匹配前一个字符1次或者0次

>>> re.search("a?","adddddd")
<re.Match object; span=(0, 1), match='a'>   
>>> re.search("a?","aadddddd")
<re.Match object; span=(0, 1), match='a'>   #只能匹配一个
>>> re.search("a?","dddddd")
<re.Match object; span=(0, 0), match=''>   

“{m}” 匹配前一个字符m次

>>> re.search("a{3}","aaadddddd")
<re.Match object; span=(0, 3), match='aaa'> 
>>> re.search("a{3}","aadaddddd")
>>> re.search("a{3}","aaaadddddd")
<re.Match object; span=(0, 3), match='aaa'>

“{n,m}” 匹配前一个字符n到m次 不能少于n次 不能大于m次

>>> re.search("a{1,2}","aaaadddddd")
<re.Match object; span=(0, 2), match='aa'>
>>> re.search("a{1,3}","aaaadddddd")
<re.Match object; span=(0, 3), match='aaa'>

“|” 匹配|左或|右的字符

>>> re.search("abc|ABC","ABCBabcCD")
<re.Match object; span=(0, 3), match='ABC'>

“(…)” 分组匹配.

>>> re.search("(abc){2}a(123|45)", "abcabca456c")
<re.Match object; span=(0, 9), match='abcabca45'> #abc匹配了两次 中间跟着a 然后后面是123或45都可以
>>> re.search("(abc){2}b(123|45)", "abcabcb456c")
<re.Match object; span=(0, 9), match='abcabcb45'>

‘’\A" 从头开始匹配

>>> re.search("\Abc","alexabc")
>>> re.search("\abc","alexabc")
>>> re.search("\abc","abc")
>>> re.search("\Abc","abc")
>>> re.search("\Abc","bc")  #匹配以bc开头的
<re.Match object; span=(0, 2), match='bc'>   

“\Z” 从结尾开始匹配

>>> re.search("bc\Z","bc")
<re.Match object; span=(0, 2), match='bc'>
>>> re.search("abc\Z","abc")
<re.Match object; span=(0, 3), match='abc'>

>>> re.search("\Aabc\Z","abc")
<re.Match object; span=(0, 3), match='abc'>
>>> re.search("\Aabc\Z","abcalexabc")   #这样是匹配不到的,要求整个字符只有abc

“[]”

>>> re.search("[a-z]","jack")
<re.Match object; span=(0, 1), match='j'>   #匹配a到z的字母
>>> re.search("[a-zA-Z]","jack")      #匹配大写和小写
<re.Match object; span=(0, 1), match='j'>
>>> re.search("[a-zA-Z]","A")
<re.Match object; span=(0, 1), match='A'>  #匹配大写和小写
>>> re.search("[a-zA-Z0-9]","A")
<re.Match object; span=(0, 1), match='A'>
>>> re.search("[a-zA-Z0-9]","9")
<re.Match object; span=(0, 1), match='9'>  #匹配大写和小写和数字
>>> re.search("[a-zA-Z0-9]","a")
<re.Match object; span=(0, 1), match='a'>    
>>> re.search("[a-zA-Z0-9]{11}","askfcj;askfcj")    #特殊字符不匹配
>>> re.search("[a-zA-Z0-9]{11}","askfcjaskfcj")        
<re.Match object; span=(0, 11), match='askfcjaskfc'>   #匹配11次

“”\d" 匹配数字0-9

>>> re.search("\d{3}","ask123dssd")    #匹配三次数字
<re.Match object; span=(3, 6), match='123'>
>>> re.search("\d{3}","ask12dssd")
>>> re.search("\d{3}","ask12345dssd") 
<re.Match object; span=(3, 6), match='123'>

>>> re.search("\d+","ask12345dssd")   #+号 匹配一个或多个数字
<re.Match object; span=(3, 8), match='12345'>

>>> re.findall("\d+","ask12345dss3232ddd2323dsd")   #找出所有数字
['12345', '3232', '2323']

"\D"匹配非数字

>>> re.search("\D+","ask12345dssd")    #匹配非数字
<re.Match object; span=(0, 3), match='ask'>

>>> re.findall("\D+","ask12345dss3232ddd2323dsd")   #可以实现分割字符串  找出所有的字符
['ask', 'dss', 'ddd', 'dsd']

“\w” 匹配[a-zA-Z0-9]

>>> re.search("\w+","ask12345dss3232ddd2323dsd")
<re.Match object; span=(0, 25), match='ask12345dss3232ddd2323dsd'>
>>> re.search("\w{3}","ask12345dss3232ddd2323dsd")
<re.Match object; span=(0, 3), match='ask'>

“\W” 匹配非[a-zA-z0-9]

>>> re.search("\W+","ask12345ds;;sd")   #找出特殊字符
<re.Match object; span=(10, 12), match=';;'>


>>> re.findall("\W+","ask;#12$345ds;;sd")   #取出特殊字符
[';#', '$', ';;']

“s” 匹配空白字符

>>> re.findall("\s+","ask;#12$\n345\rds\t;;sd")     #取出换行符
['\n', '\r', '\t']
>>> re.findall("\s","ask;#12$\n345\rds\t;;sd")
['\n', '\r', '\t']

“(?P…)” 分组匹配

>>> id_num = "37148199306143631"
>>> a = re.search("([0-9]{3})([0-9]{3})([0-9]{4})",id_num)
>>> a.group()
'3714819930'
>>> a.groups()   #列表
('371', '481', '9930')

>>> re.search("([0-9]{3})([0-9]{3})([0-9]{4})",id_num).groups()
('371', '481', '9930')

#编程字典格式。 groupdict()
>>> re.search("(?P<province>[0-9]{3})(?P<city>[0-9]{3})(?P<birthday>[0-9]{4})",id_num).gr
oupdict()
{'province': '371', 'city': '481', 'birthday': '9930'}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云原生解决方案

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值