在写这篇文章之前 我对正则表达式 一知半解,只要你跟着我的文章敲一遍,粗品其中的规则,应该对正则表达式有一个 质的飞跃 ;
re的匹配语法有以下几种
- re.match 从头开始匹配. #意思是从头就应该有个手机号 要不然匹配都不到
- re.search 匹配包含
- re.findall 把所有匹配到的字符放到以列表中的元素返回
- re.split 以匹配到的字符当做列表分隔符
- re.sub 匹配字符并替换
- re.fullmatch 全部匹配
- .groups() 以列表的形式展示 相当于 re.findall
- .groupdict()以字典的形式展示
- .group() 匹配及展示
'.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
'^' 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$' 匹配字符结尾, 若指定flags MULTILINE ,re.search('foo.$','foo1\nfoo2\n',re.MULTILINE).group() 会匹配到foo1
'*' 匹配*号前的字符0次或多次, re.search('a*','aaaabac') 结果'aaaa'
'+' 匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?' 匹配前一个字符1次或0次 ,re.search('b?','alex').group() 匹配b 0次
'{m}' 匹配前一个字符m次 ,re.search('b{3}','alexbbbs').group() 匹配到'bbb'
'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|' 匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配, re.search("(abc){2}a(123|45)", "abcabca456c").group() 结果为'abcabca45'
'\A' 只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的,相当于re.match('abc',"alexabc") 或^
'\Z' 匹配字符结尾,同$
'\d' 匹配数字0-9
'\D' 匹配非数字
'\w' 匹配[A-Za-z0-9]
'\W' 匹配非[A-Za-z0-9]
's' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
'(?P...)' 分组匹配 re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{4}
实践
"."默认匹配除\n之外的任意一个字符
>>> import re
>>> re.search(".","alex")
<re.Match object; span=(0, 1), match='a'>
>>> re.search(".","alex").group()
'a'
>>> re.search(".","%$!")
<re.Match object; span=(0, 1), match='%'>
>>> re.search(".","\n")
>>> re.search(".","\n").group() #\n就没办法匹配 #group是把他打印出来
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
"^"以什么开头
>>> re.search("^alex$","alex1") #^是以alex开头 $是以alex结尾
>>> re.search("^alex$","alex1").group()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
“*” 匹配*
号前面的字符0次或者多次
>>> re.search("a*","ddddadd")
<re.Match object; span=(0, 0), match=''>
>>> re.search("a*","addddadd")
<re.Match object; span=(0, 1), match='a'>
>>> re.search("a*","addddadd").group()
'a'
>>> re.search("a*","aaaaddddadd").group() #开头就能匹配到
'aaaa'
“+” 匹配前一个字符1次活多次
>>> re.search("a+","aaaaddddadd").group()
'aaaa'
>>> re.search("a+","aaaaddddadd")
<re.Match object; span=(0, 4), match='aaaa'>
>>> re.search("a+","ddddadd")
<re.Match object; span=(4, 5), match='a'>
>>> re.search("a+","dddddd")
"?"匹配前一个字符1次或者0次
>>> re.search("a?","adddddd")
<re.Match object; span=(0, 1), match='a'>
>>> re.search("a?","aadddddd")
<re.Match object; span=(0, 1), match='a'> #只能匹配一个
>>> re.search("a?","dddddd")
<re.Match object; span=(0, 0), match=''>
“{m}” 匹配前一个字符m次
>>> re.search("a{3}","aaadddddd")
<re.Match object; span=(0, 3), match='aaa'>
>>> re.search("a{3}","aadaddddd")
>>> re.search("a{3}","aaaadddddd")
<re.Match object; span=(0, 3), match='aaa'>
“{n,m}” 匹配前一个字符n到m次 不能少于n次 不能大于m次
>>> re.search("a{1,2}","aaaadddddd")
<re.Match object; span=(0, 2), match='aa'>
>>> re.search("a{1,3}","aaaadddddd")
<re.Match object; span=(0, 3), match='aaa'>
“|” 匹配|左或|右的字符
>>> re.search("abc|ABC","ABCBabcCD")
<re.Match object; span=(0, 3), match='ABC'>
“(…)” 分组匹配.
>>> re.search("(abc){2}a(123|45)", "abcabca456c")
<re.Match object; span=(0, 9), match='abcabca45'> #abc匹配了两次 中间跟着a 然后后面是123或45都可以
>>> re.search("(abc){2}b(123|45)", "abcabcb456c")
<re.Match object; span=(0, 9), match='abcabcb45'>
‘’\A" 从头开始匹配
>>> re.search("\Abc","alexabc")
>>> re.search("\abc","alexabc")
>>> re.search("\abc","abc")
>>> re.search("\Abc","abc")
>>> re.search("\Abc","bc") #匹配以bc开头的
<re.Match object; span=(0, 2), match='bc'>
“\Z” 从结尾开始匹配
>>> re.search("bc\Z","bc")
<re.Match object; span=(0, 2), match='bc'>
>>> re.search("abc\Z","abc")
<re.Match object; span=(0, 3), match='abc'>
>>> re.search("\Aabc\Z","abc")
<re.Match object; span=(0, 3), match='abc'>
>>> re.search("\Aabc\Z","abcalexabc") #这样是匹配不到的,要求整个字符只有abc
“[]”
>>> re.search("[a-z]","jack")
<re.Match object; span=(0, 1), match='j'> #匹配a到z的字母
>>> re.search("[a-zA-Z]","jack") #匹配大写和小写
<re.Match object; span=(0, 1), match='j'>
>>> re.search("[a-zA-Z]","A")
<re.Match object; span=(0, 1), match='A'> #匹配大写和小写
>>> re.search("[a-zA-Z0-9]","A")
<re.Match object; span=(0, 1), match='A'>
>>> re.search("[a-zA-Z0-9]","9")
<re.Match object; span=(0, 1), match='9'> #匹配大写和小写和数字
>>> re.search("[a-zA-Z0-9]","a")
<re.Match object; span=(0, 1), match='a'>
>>> re.search("[a-zA-Z0-9]{11}","askfcj;askfcj") #特殊字符不匹配
>>> re.search("[a-zA-Z0-9]{11}","askfcjaskfcj")
<re.Match object; span=(0, 11), match='askfcjaskfc'> #匹配11次
“”\d" 匹配数字0-9
>>> re.search("\d{3}","ask123dssd") #匹配三次数字
<re.Match object; span=(3, 6), match='123'>
>>> re.search("\d{3}","ask12dssd")
>>> re.search("\d{3}","ask12345dssd")
<re.Match object; span=(3, 6), match='123'>
>>> re.search("\d+","ask12345dssd") #+号 匹配一个或多个数字
<re.Match object; span=(3, 8), match='12345'>
>>> re.findall("\d+","ask12345dss3232ddd2323dsd") #找出所有数字
['12345', '3232', '2323']
"\D"匹配非数字
>>> re.search("\D+","ask12345dssd") #匹配非数字
<re.Match object; span=(0, 3), match='ask'>
>>> re.findall("\D+","ask12345dss3232ddd2323dsd") #可以实现分割字符串 找出所有的字符
['ask', 'dss', 'ddd', 'dsd']
“\w” 匹配[a-zA-Z0-9]
>>> re.search("\w+","ask12345dss3232ddd2323dsd")
<re.Match object; span=(0, 25), match='ask12345dss3232ddd2323dsd'>
>>> re.search("\w{3}","ask12345dss3232ddd2323dsd")
<re.Match object; span=(0, 3), match='ask'>
“\W” 匹配非[a-zA-z0-9]
>>> re.search("\W+","ask12345ds;;sd") #找出特殊字符
<re.Match object; span=(10, 12), match=';;'>
>>> re.findall("\W+","ask;#12$345ds;;sd") #取出特殊字符
[';#', '$', ';;']
“s” 匹配空白字符
>>> re.findall("\s+","ask;#12$\n345\rds\t;;sd") #取出换行符
['\n', '\r', '\t']
>>> re.findall("\s","ask;#12$\n345\rds\t;;sd")
['\n', '\r', '\t']
“(?P…)” 分组匹配
>>> id_num = "37148199306143631"
>>> a = re.search("([0-9]{3})([0-9]{3})([0-9]{4})",id_num)
>>> a.group()
'3714819930'
>>> a.groups() #列表
('371', '481', '9930')
>>> re.search("([0-9]{3})([0-9]{3})([0-9]{4})",id_num).groups()
('371', '481', '9930')
#编程字典格式。 groupdict()
>>> re.search("(?P<province>[0-9]{3})(?P<city>[0-9]{3})(?P<birthday>[0-9]{4})",id_num).gr
oupdict()
{'province': '371', 'city': '481', 'birthday': '9930'}