正则表达式学习笔记

最新推荐文章于 2020-12-23 18:38:36 发布

翻滚的豆沙包

最新推荐文章于 2020-12-23 18:38:36 发布

阅读量129

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_43980832/article/details/107877914

版权

.1.1. 非打印字符

特别字符	描述
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于`[ \f\n\r\t\v]`。注意 Unicode 正则表达式会匹配全角空格符。
\S	匹配任何非空白字符。等价于 `[^ \f\n\r\t\v]`。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配字母或数字或下划线或汉字等价于 `[^A-Za-z0-9_]`
\d	匹配数字
\D	匹配非数字

.1.2. 特殊符

符号	含义
.	除\n以外任意字符
^	当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合
\|	二选一

.1.3. 限定符

*

+

？

{n}

{n,}

{n,m}

其中* +为贪婪的,会尽可能多的匹配字符

例: 匹配<h1>不啦不啦不啦</h1>

		匹配结果
<.*>	贪婪	不啦不啦不啦
<.*?>	非贪婪

.1.4. 定位符

字符	描述
^	匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性，^ 还会与 \n 或 \r 之后的位置匹配。
$	匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性，$ 还会与 \n 或 \r 之前的位置匹配。
\b	匹配一个单词边界，即字与空格间的位置。
\B	非单词边界匹配。

注:若要匹配一行文本开始处的文本，请在正则表达式的开始使用 ^ 字符。不要将 ^ 的这种用法与中括号表达式内的用法混淆。

若要匹配一行文本的结束处的文本，请在正则表达式的结束处使用 $ 字符。

例

Chapter RegExp


匹配章节标题	`^Chapter [1-9][0-9]{0,1}$`
匹配单词开头	`\bCha`
匹配结尾	`ter\b`
匹配中间字符	`\Bapt` 但无法匹配`apter`(开头)

.1.5. 高级

字符	描述
(pattern)	匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 ‘(’ 或 ‘)’。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 “或” 字符 (\|) 来组合一个模式的各个部分是很有用。例如，`industr(?:y\\|ies)` 就是一个比 `industry\\|industries`更简略的表达式。
(?=pattern)	正向肯定预查（look ahead positive assert），在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，`Windows(?=95\\|98\\|NT\\|2000)`能匹配`Windows2000`中的`Windows`，但不能匹配`Windows3.1`中的`Windows`。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查(negative assert)，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如`Windows(?!95\\|98\\|NT\\|2000)`能匹配`Windows3.1`中的`Windows`，但不能匹配`Windows2000`中的`Windows`。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?<=pattern)	反向(look behind)肯定预查，与正向肯定预查类似，只是方向相反。例如，"`(?<=95\|98\|NT\|2000)Windows`“能匹配”`2000Windows`“中的”`Windows`"，但不能匹配"`3.1Windows`“中的”`Windows`"。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如"(?“能匹配”`3.1Windows`“中的”`Windows`"，但不能匹配"`2000Windows`“中的”`Windows`"。

.1.6. 在java中的特殊点

在其他语言中（如Perl），\\ 表示：我想要在正则表达式中插入一个普通的（字面上的）反斜杠，请不要给它任何特殊的意义。

在 Java 中，\\ 表示：我要插入一个正则表达式的反斜线，所以其后的字符具有特殊的意义。

所以，在其他的语言中（如Perl），一个反斜杠\ 就足以具有转义的作用，而在 Java 中正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在 Java 的正则表达式中，两个\\ 代表其他语言中的一个\，这也就是为什么表示一位数字的正则表达式是 \\d，而表示一个普通的反斜杠是 \\\\。