元字符:
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束(一般用于校验整个字符串)
^ 匹配字符串的开始(整个字符串最开头)
$ 匹配字符串的结束(整个字符串最后)
字符转义
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.
例如:deerchao\.cn匹配deerchao.cn,C:\\Windows匹配C:\Windows。
限定符(重复次数)
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
懒惰限定符
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
a.*?b匹配最短的,以a开始,以b结束的字符串
正则表达式有一条规则,比懒惰/贪婪规则的优先级更高:最先开始的匹配拥有最高的优先权
区间
[ ] 指定方括号内的都可以匹配相当于或。
如:[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!),[0-9]代表的含意与\d就是完全一致的:一位数字;同理[a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)
分枝条件 ‘|’
0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。
分组‘()’
小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了。
如:(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。
反义符
用于匹配除了...以外,其它任意字符都行的情况
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符 [^aeiou]匹配除了aeiou这几个字母以外的任意字符