正则表达式之<四>使用元字符

1.元字符是一些在正则表达式中有着特殊含义的字符。

也就是说这些字符是无法代表它们本身的,如果想表式它们本身就必须经过转义。
任何一个元字符都可以通过给他加上[color=red][b]反斜杠字符(\)作为前缀的办法来转义[/b][/color]。
举例:
在需要匹配[color=red][b]\[/b][/color]本身的时候,我们必须把它转义为[color=red][b]\\[/b][/color]

2.匹配空白字符

元字符分两种:
(1)一种用于匹配文本的(比如‘.’)
(2)另一种用于正则表达式的语法所要求的(比如‘[’和‘]’)


[\b] 回退一个字符
\f 换页符
\n 换行符
\r 回车符
\t 制表符
\v 垂直制表符




3、匹配特定的字符类别

一些常用的字符集合可以使用特殊字符来代替
(1)匹配数字(与非数字) 


\d         相当于[0-9],匹配任何一个数字
\D         相当于[^0-9],匹配任何一个非数字


(2)匹配字母和数字(与非字母和数字)


\w        相当于[A-Za-z0-9_],匹配任何一个字母数字字符或下划线字符
\W        相当于[^A-Za-z0-9_],匹配任何一个非字母数字字符或非下划线字符


(3)匹配空白字符(与非空白字符)


\s        相当于[\f\n\r\t\v],匹配任何一个空白字符
\S        相当于[^\f\n\r\t\v],匹配任何一个非空白字符

[color=red][b]
4、元字符分为”贪婪型“与”懒惰型“两种[/b][/color]
贪婪型:
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符

考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

懒惰型:
我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。


eg:
文本:
This offer is not availiable to customers
living in <B>AK</B> and <B>HI</B>.
or <B></B> or <b>ak</B>

正则:
<Bb>.*</Bb>

匹配结果:(贪婪型)注意看颜色表示匹配程度。

[img]http://dl2.iteye.com/upload/attachment/0085/3329/83244017-f3a1-39a9-ac5e-2f313f916646.png[/img]

正则:
<Bb>.*?</Bb>
匹配结果:(懒惰型)

[img]http://dl2.iteye.com/upload/attachment/0085/3331/7e08ea36-afc2-3e10-962f-000bf6029ed6.png[/img]


懒惰限定符
代码 / 语法说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复


5、常用元字符表

代码 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

常用的反义代码
代码/语法 说明
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou]匹配除了aeiou这几个字母以外的任意字符

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值