初学正则表达式及其简单的应用
(在第三次实验里就用了正则表达式,但是给我难坏了,现在写出我的心得感想)
正则表达式的定义(附带表格)
正则表达式通常被用于判断语句中,用来检查字符串是否满足某一种特定格式。 正则表达式是含有一些具有特殊意 义字符的字符串,这些特殊字符称为正则表达式的元字符。例如,“\d”表示数字0~9中的任何一个,“\d” 就是元字符。而在代码中想用“\d”就得用‘\d’。正则表达式中的元字符及其意义如下表:
元字符 | 正则表达式中的写法 | 意义 |
---|---|---|
. | \. | 代表“ . ” |
. | . | 代表任意一个字符 |
\d | \d | 代表0- 9的任何一个数字 |
\D | \D | 代表任何一一个非数字字符 |
\s | \s | 代表空白字符,如"\t"、"\n" |
\S | \S | 代表非空白字符 |
\w | \w | 代表可用作标识符的字符,但不包括“$” |
\W | \W | 代表不可用于标识符的字符 |
\p{Lower} | \p{Lower} | 代表小写字母a~z |
\p{Upper} | \p{Upper} | 代表大写字母A~Z |
\p{ASCII} | \p{ASCII} | ASCII字符 |
\p{Alpha} | \p {Alpha} | 字母字符 |
\p{Digit} | \p {Digit} | 十进制数字,即0~9 |
\p{Alnum} | \p{Alnum} | 数字或字母字符 |
\p {Punct} | \p{Punct} | 标点符号: !"#$%&’(*+,-/:;<= =>?@N]^ {}~ |
\p{Graph} | \p {Graph} | 可见字符: [p{Alnum}\p {Punct}] |
\p {Print} | \p{Print} | 可打印字符: [\p{Graph}\x20] |
\p{Blank} | \p {Blank} | 空格或制表符: [t] |
\p{Cntrl} | \p{Cntrl} | 控制字符: [x00-\x1F\x7F] |
正则表达式中“.”代表任何字符,因此想在正则表示中想要使用普通意义的“.”就得加转义字符“\”。
代码示例
package zhengze;
public class zhengzeTest1 {
public static void main(String[] args) {
String zzstr = "\\w+@\\w+(\\.\\w{2,3})*\\.\\w{2,3}";
String str1 = "313@";
String str2 = "hit_hmx@computer.com";
String str3 = "123456@123789";
if(str1.matches(zzstr)) {
System.out.println(str1+"是一个合法的E-mail地址格式");
}
if(str2.matches(zzstr)) {
System.out.println(str2+"是一个合法的E-mail地址格式");
}
if(str3.matches(zzstr)) {
System.out.println(str3+"是一个合法的E-mail地址格式");
}
}
}
运行结果:
正则表达式分析:
通常情况下E-mail 的格式为“X@X.com.cn”。字符x表示任意的一一个或多个字符,@为E-mail地址中的特有符号,符号@后还有-一个或多个字符,之后是字符“.com”,也可能后面还有类似“.cn”的标记。总结E-mail地址的这些特点,因此可以书写正则表达式“\w+@l\w+(.lw {2,3})l.\w{2,3}"来匹配E-mail地址。字符集“\w”匹配任意字符,符号“+”表示字符可以出现1次或多次,表达式“.\w{2,3})”表示形如.com”格式的字符串可以出现0次或多次。而最后的表达式“.\w{2,3}”用于匹配E-mail地址中的结尾字符,如“.com”
限定修饰符
[^456]:代表4、5、6之外的任何字符。
[a-r]:代表a~r中的任何一个字母。
[a-zA-Z]:可表示任意一一个英文 字母。
[a-e[g-7]]:代表a~e,或g~z中的任何一个字母(并运算)。
[a-o&&[def]:代表字母d、e、f (交运算)。
[a-d&&[^bc]]:代表字母a、d (差运算)。
限定修饰符 | 意义 | 示例 |
---|---|---|
? | 0次或一次 | A? |
* | 0次或多次 | A* |
+ | 1次或多次 | A+ |
{n} | 正好出现n次 | A{n} |
{n,} | 至少出现n次 | A{n,} |
{n,m} | 出现n~m次 | A{2,3} |