本小节解释基于正则表达式的基础理论的典型正则表达式,如匹配Windows操作系统的名称、匹配HTML标记、匹配HTML标记之间的内容。
1.匹配Windows操作系统的名称
Windows操作系统存在很多版本,如Windows 95、Windows 98、Windows 2000、Windows ME、Windows XP、Windows 2003等。以下正则表达式能够精确匹配Windows操作系统的名称。
Windows/s*((95)|(98)|(2000)|(2003)|(ME)|(XP)) (81)
上述表达式能够精确匹配Windows 95、Windows 98、Windows 2000、Windows ME、Windows XP、Windows 2003等操作系统的名称。然而,精确匹配Windows操作系统的名称的正则表达式比较冗长。以下 正则表达式能够简单匹配Windows操作系统的名称。
Windows/s/w+ (82)
2.匹配HTML标记
HTML标记一般被尖括号包围,如<a>、<table>、<br>、<input>等。以下正则表达式能够匹配HTML标记。
<[a-zA-Z][^>]*> (83)
正则表达式(83)解释:
<匹配HTML标记的左尖括号。
字符类[a-zA-Z]可以匹配一个英文字母,它匹配HTML标记中第一个字符(除去左尖括号)。
字符类[^>]可以匹配除右尖括号的之外的任何字符。
[^>]*可以匹配空字符串,或者由除右尖括号的之外的任何字符组成的字符串。
>匹配HTML标记的右尖括号。
[a-zA-Z][^>]*匹配HTML标记的名称。
使用工具Regex Tester测试正则表达式(83),结果如图所示。