正则表达式:
-
标准字符集合:注意区分大小写,大写是相反的意思
- \d:0-9中任意一个数字;
- \w:任意一个字母或数字或下划线,即A-Z,a-z,0-9,_中任意一个;
- \s:包含空格、制表符、换行符等空白字符的其中任意一个;
- . :小数点可以匹配任意一个字符(除了换行符);如果要匹配包括“\n”在内所有的字符,一般用[\s\S];
-
自定义字符集合:[]方括号匹配方式,能够匹配方括号中任意一个字符。
例:- [ab5@]:匹配“a”或“b”或“5”或“@”;
- [^abc]:匹配“a”,“b”,“c”之外的任意一个字符;
- [f-k] :匹配“f”-“k”之间的任意一个字母;
-
量词:修饰匹配次数的特殊符号
- {n} :表达式重复n次;
- {m,n}:表达式至少重复m次,最多重复n次;
- {m,}:表达式至少重复m次;
- ? :匹配表达式0次或者1次,相当于{0,1};
- + :表达式至少出现1次,相当于{1,};
- * :表达式不出现或者出现任意次,相当于{0,};
注:匹配次数中的贪婪模式(匹配字符越多越好,默认);
匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后再加上一个“?”号);
-
字符边界:匹配的不是字符而是位置,符合某种条件的位置。
- ^:与字符串开始的地方匹配;
- $:与字符串结束的地方匹配;
- \b:匹配一个单词边界(前面的字符和后面的字符不全是\w);
-
选择符和分组
-
|:左右两边表达式之间“或”关系,匹配左边或者右边;
-
():捕获组;(1)在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰;
(2)取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到;
(3)每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为零
的第一个捕获是由整个正则表达式模式匹配的文本; -
(?:Expression):非捕获组;一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,这时可以用
非捕获组来抵消使用()带来的副作用; -
反象引用(\n):每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。
通过反向引用,可以对分组已捕获的字符串进行引用。
-
-
预搜索(零宽断言):
- 只进行子表达式的匹配,匹配内容不计入最终匹配结果,是零宽度;
- 这个位置应该符合某个条件。判断当前位置的前后字符,是否符合指定的条件,但不匹配前后的字符。是对位置的匹配。
- 正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。
- (?=exp):断言自身出现的位置的后面能匹配表达式exp;
- (?>=exp):断言自身出现的位置的前面能匹配表达时exp;
- (?!exp):断言此位置的后面不能匹配表达式exp;
- (?<!exp):断言此位置的前面不能匹配表达式exp;