正则表达式是一种特殊的字符串模式,用于匹配一组字符串,就好比用模具做产品,而正则就是这个模具,定义一种规则去匹配符合规则的字符。
首先,从最简单的匹配开始,假设你要搜索一个包含字符”cat”的字符串,搜索用的正则表达式就是”cat”。如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”等都可以匹配。
正则表达式的基本符号
1.1句点符号
假设你要找出三个字母的单词,并且这些单词必须以字母”t”开头,以字母”n”结束。则可以使用一个通配符——句点符号”.”。这样,完整的表达式”t.n”,它可以匹配”tan”、”ten”、”tin”,还可以匹配”t。n”、”t%n”等。句点符号”.”:能匹配除"\n"之外的任何单个字符。要匹配包括'\n'在内的任何字符,请使用像'[.\n]'的模式。
1.2方括号
为了解决句点符号匹配范围过于广泛这一问题,可以使用方括号(”[]”),里面指定可以匹配的单个字符,此时只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“ten”、“tin”和“ton”。但“toon”不匹配。
1.3”或”符号
“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组。例如,'z|food'能匹配 "z" 或"food"。'(z|f)ood' 则匹配 "zood" 或"food"。
1.4表示匹配次数的符号
这些符号用来确定紧靠该符号左边的符号出现的次数:
符号 |
次数 |
* |
0次或者多次 |
+ |
1次或者多次 |
? |
0次或者1次 |
{n} |
恰好n次 |
{n, m} |
从n次到m次 |
例如:我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式图所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。
假设进行搜索的时候,你希望连字符号可以