Python正则表达式

正则(Regular Expression)表达式,又称规则表达式。
正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
在介绍python中正则表达式的使用之前,先介绍一下有关正则表达式的语法。

正则表达式
元字符介绍
“”^" :^会匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置。

" " : " : "会匹配行或字符串的结尾。

“\w”:匹配字母,数字,下划线。

“\b” :不会消耗任何字符只匹配一个位置,常用于匹配单词边界。
单词边界符能够匹配中文符号、英文符号、空格、制表符、回车符号,以及各种边界,比如单词在开头,单词在结尾。
例如,想从字符串中"This is Regex"匹配单独的单词 “is” 正则就要写成 “\bis\b” 。
\b 不会匹配is 两边的字符,但它会识别is 两边是否为单词的边界。

“\s”:匹配空格 。

“\d”:匹配一个数字。

“.”:匹配除了换行符以外的任何字符。"\w"不能匹配空格,而"."可以。

“[abc]”:字符组,匹配包含括号内元素的字符。

“|”:或。A|B可以匹配A或B,所以(P|p)ython可以匹配’Python’或者’python’。
举例:
在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字,.可以匹配任意字符,所以:

‘00\d’可以匹配’007’,但无法匹配’00A’
‘\d\d\d’可以匹配’010’
‘\w\w\d’可以匹配’py3’
'py.‘可以匹配’pyc’、‘pyo’、'py!'等等。
\s可以匹配一个空格(也包括Tab等空白符)。
py也可以匹配’python‘,但是加上^py$就变成了整行匹配,就只能匹配’py’了。
几种反义
写法很简单改成大写就行了,意思与原来的相反,这里就不举例子了。

“\W” 匹配任意不是字母,数字,下划线 的字符
“\S” 匹配任意不是空白符的字符
“\D” 匹配任意非数字的字符
“\B” 匹配不是单词开头或结束的位置
“[^abc]” 匹配除了abc以外的任意字符

量词
":重复零次或更多
例如"aaaaaaaa" 匹配字符串中所有的a。正则:"a
"会出到所有的字符"a”

“+” :重复一次或更多次
例如"aaaaaaaa" 匹配字符串中所有的a。正则"a+"会取到字符中所有的a字符,"a+“与"a*“不同在于”+“至少是一次而”*” 可以是0次。

“?”:重复零次或一次
例如"aaaaaaaa" 匹配字符串中的a。正则:“a?” 只会匹配一次,也就是结果只是单个字符a。

“{n}” :重复n次
例如从"aaaaaaaa" 匹配字符串的a 并重复3次。正则:"a{3}"结果就是取到3个a字符 “aaa”。

“{n,m}” :重复n到m次
例如正则 “a{3,4}” 将a重复匹配3次或者4次 所以供匹配的字符可以是三个"aaa"也可以是四个"aaaa",正则都可以匹配到。

“{n,}” :重复n次或更多次
与{n,m}不同之处就在于匹配的次数将没有上限,但至少要重复n次。正则"a{3,}",a至少要重复3次。
正则表达式在python中使用
re模块
有了准备知识,我们就可以在Python中使用正则表达式了。Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意。
先看看如何判断正则表达式是否匹配:

import re
re.match(r’^\d{3}-\d{3,8}$’, ‘010-12345’)
<_sre.SRE_Match object; span=(0, 9), match=‘010-12345’>

re.match(r’^\d{3}-\d{3,8}$’, ‘010 12345’)

match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。常见的判断方法就是:

test = ‘用户输入的字符串’
if re.match(r’正则表达式’, test):
print(‘ok’)
else:
print(‘failed’)
切分字符串
用正则表达式切分字符串比用固定的字符更灵活,请看正常的切分代码:

‘a b c’.split(’ ')
[‘a’, ‘b’, ‘’, ‘’, ‘c’]
无法识别连续的空格,用正则表达式试试:

re.split(r’\s+’, ‘a b c’)
[‘a’, ‘b’, ‘c’]
无论多少个空格都可以正常分割。加入,试试:

re.split(r’[\s,]+’, ‘a,b, c d’)
[‘a’, ‘b’, ‘c’, ‘d’]

分组
除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组(Group)。比如:
^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码:

m = re.match(r’^(\d{3})-(\d{3,8})$’, ‘010-12345’)
m
<_sre.SRE_Match object; span=(0, 9), match=‘010-12345’>

m.group(0)
‘010-12345’

m.group(1)
‘010’

m.group(2)
‘12345’

如果正则表达式中定义了组,就可以在Match对象上用group()方法提取出子串来。
注意到group(0)永远是原始字符串,group(1)、group(2)……表示第1、2、……个子串。
提取子串非常有用。
例子:

t = ‘19:05:30’
m = re.match(r’^(0[0-9]|1[0-9]|2[0-3]|[0-9]):(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9]):(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$’, t)
m.groups()
(‘19’, ‘05’, ‘30’)
这个正则表达式可以直接识别合法的时间。

正则表达式对象的常用方法
rx.findall(s,start, end):返回一个列表,如果正则表达式中没有分组,则列表中包含的是所有匹配的内容,如果正则表达式中有分组,则列表中的每个元素是一个元组,元组中包含子分组中匹配到的内容,但是没有返回整个正则表达式匹配的内容rx.finditer(s, start, end):返回一个可迭代对象对可迭代对象进行迭代,每一次返回一个匹配对象,可以调用匹配对象的group()方法查看指定组匹配到的内容,0表示整个正则表达式匹配到的内容rx.search(s, start, end):返回一个匹配对象,倘若没匹配到,就返回Nonesearch()方法只匹配一次就停止,不会继续往后匹配rx.match(s, start, end):如果正则表达式在字符串的起始处匹配,就返回一个匹配对象,否则返回Nonerx.sub(x, s, m):返回一个字符串。每一个匹配的地方用x进行替换,返回替换后的字符串,如果指定m,则最多替换m次。对于x可以使用/i或者/gid可以是组名或者编号来引用捕获到的内容。模块方法re.sub(r, x, s, m)中的x可以使用一个函数。此时我们就可以对捕获到的内容推过这个函数进行处理后再替换匹配到的文本。rx.subn(x, s, m):与re.sub()方法相同,区别在于返回的是二元组,其中一项是结果字符串,一项是做替换的个数。rx.split(s, m):分割字符串,返回一个列表,用正则表达式匹配到的内容对字符串进行分割如果正则表达式中存在分组,则把分组匹配到的内容放在列表中每两个分割的中间作为列表的一部分,如:rx = re.compile(r"(\d)[a-z]+(\d)")      s = “ab12dk3klj8jk9jks5”      result = rx.split(s)123返回[‘ab1’, ‘2’, ‘3’, ‘klj’, ‘8’, ‘9’, ‘jks5’]rx.flags()正则表达式编译时设置的标志rx.pattern()正则表达式编译时使用的字符串。
匹配对象的属性与方法
m.group(g, …)返回编号或者组名匹配到的内容,默认或者0表示整个表达式匹配到的内容,如果指定多个,就返回一个元组m.groupdict(default)返回一个字典。字典的键是所有命名的组的组名,值为命名组捕获到的内容如果有default参数,则将其作为那些没有参与匹配的组的默认值。m.groups(default)返回一个元组。包含所有捕获到内容的子分组,从1开始,如果指定了default值,则这个值作为那些没有捕获到内容的组的值m.lastgroup()匹配到内容的编号最高的捕获组的名称,如果没有或者没有使用名称则返回None(不常用)m.lastindex()匹配到内容的编号最高的捕获组的编号,如果没有就返回None。m.start(g)当前匹配对象的子分组是从字符串的那个位置开始匹配的,如果当前组没有参与匹配就返回-1m.end(g)当前匹配对象的子分组是从字符串的那个位置匹配结束的,如果当前组没有参与匹配就返回-1m.span()返回一个二元组,内容分别是m.start(g)和m.end(g)的返回值m.re()产生这一匹配对象的正则表达式m.string()传递给match()或者search()用于匹配的字符串m.pos()搜索的起始位置。即字符串的开头,或者start指定的位置(不常用)m.endpos()搜索的结束位置。即字符串的末尾位置,或者end指定的位置(不常用)
总结:
对于正则表达式的匹配功能,Python没有返回true和false的方法,但可以通过对match()或者search()方法的返回值是否是None来判断。对于正则表达式的搜索功能,如果只搜索一次可以使用search()或者match()方法返回的匹配对象得到,对于搜索多次可以使用finditer()方法返回的可迭代对象来迭代访问。对于正则表达式的替换功能,可以使用正则表达式对象的sub()或者subn()方法来实现,也可以通过re模块方法sub()或者subn()来实现,区别在于模块的sub()方法的替换文本可以使用一个函数来生成。对于正则表达式的分割功能,可以使用正则表达式对象的split()方法,需要注意如果正则表达式对象有分组的话,分组捕获的内容也会放到返回的列表中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值