正则表达式大全实例介绍

最新推荐文章于 2023-03-15 20:30:11 发布

py编程

最新推荐文章于 2023-03-15 20:30:11 发布

阅读量298

点赞数

分类专栏：正则

本文链接：https://blog.csdn.net/zfs1570/article/details/110875474

版权

正则专栏收录该内容

4 篇文章 0 订阅

订阅专栏

不管开发还是测试都得用到正则，测试开发，测试工具比如jmeter也是要用到的

0\d{2}-\d{8}|0\d{3}-\d{7}

例子：011-12345678

$?0\d{2}$?[- ]?\d{8}|0\d{2}[- ]?\d{8}

()： 0次或1次

0开头+2位数字

[-或者空格]：0次或者1次

| 或

例子：022 或者（022）

且

- 或者空格

+8位数字

0\d{2}[- ]?\d{8}

例子： 022

且

-或者空格

+8位数字

\d{5}-\d{4}|\d{5}

5位数字-4位数字或 5位数字

\d{5}|\d{5}-\d{4}

5位数字或5位数字-4位数字

(\d{1,3}\.){3}\d{1,3}

(\d).或(\d\d).或(\d\d\d) 重复三次

(\d)或(\d\d)或(\d\d\d)

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

解析：

((2[0-4]\d或25[0-5]或[01]?\d\d?)\.)

重复三次

+ 2[0-4]\d|25[0-5]|[01]?\d\d?)

(2[0,4]\d). 或(25[0,5]).或([01]\d\d).或([01]\d).或(\d\d).或(\d).

2[0-4]\d|25[0-5]|[01]?\d\d?

\d数字

\s空白符

\w字母数字下划线汉字

.除换行符以外

\b开头或结束

^开始

$结束

============================

<a[^>]+>

<a+>

\b(\w+)\b\s+\1\b

\b(?<Word>\w+)\b\s+\k<Word>\b

X{n}

1或多 0或1

X{n,}?

String content="323cds33cds0293";

Pattern p=Pattern.compile("\\d+");

Matcher m=p.matcher(content);

while(m.find()){

content=content.replace(m.group(),'xxx');

}

eg：

var reg=new RegExp('\\<(\\w+)\\>','g');

var str="fsd<abc>f<cdd><fods><foire<fdso<forg>";

var match=str.match(reg);

「to(nite|knight|night)」匹配字符串‘hot–tonic– tonight! ’

来看个简单的例子，用「ab?c」匹配abc。「a」匹配之后，匹配的当前状态如下：

‘a?bc’

「a?b?c」

现在轮到「b?」了，正则引擎需要决定：是需要尝试「b」呢，还是跳过？因为?是匹配优先的，它会尝试匹配。但是，为了确保在这个尝试最终失败之后能够恢复，引擎会把：

‘a?bc’

「ab? ?c」

以‘CA–95472–USA’为例。在「.*」成功匹配到字符串的末尾时，星号约束的点号匹配了13

个字符，同时保存了许多备用状态。这些状态表明稍后的匹配开始的位置：在正则表达式中是「^.*? ([0-9][0-9])」，在字符串中则是点号每次匹配时保存的备用状态。

现在我们已经到了字符串的末尾，并把控制权交给第一个「[0-9]」，显然这里的匹配不能成功。没问题，我们可以选择一个保存的状态来进行尝试（实际上保存了许多的状态）。现在回溯开始，把当前状态设置为最近保存的状态，也就是「.*」匹配最后的A之前的状态。忽略（或者，如果你愿意，可以使用“交还”）这个匹配，于是有机会用「[0-9]」匹配这个A，但这同样会失败。

\b(\w+)\b\s+\1\b

\b(\w+)\b\s+\b(\w+)\b

\b(?<t>\w+)\b\s+\k<t>\b

\b(?<t>\w+)\b\s+\b(?<t>\w+)\b

2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

(?#注释的内容)

\b(?<t>\w+)\b

后向引用

\k<t>

\b(\w+)\b\s+\1\b

\b(\w+)\b\s+\b(\w+)\b

(exp)

(?<name>exp)

\b\w+(?=ing\b)

零宽度正预测先行断言

匹配img前面的位置

(?<=\bre)\w+\b

零宽度正回顾后发断言

(?<=a)

匹配a后面的位置

\b(?<t>\w+)\b

后向引用\k<t>

I'm singing while you're dancing.时，它会匹配sing和danc。

\b\w+(?=ing\b)

reading a book时，它匹配ading

(?<=\bre)\w+\b

假如你想要给一个很长的数字中每三位间加一个逗号

((?<=\d)\d{3})+\b

2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

(?<= # 断言要匹配的文本的前缀

<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)

) # 前缀结束

.* # 匹配任意文本

(?= # 断言要匹配的文本的后缀

<\/\1> # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签

) # 后缀结束

（？=a）匹配a前面的部分

(?<=a) 匹配a后面的部分

\b(\w+)\b\s+\1\b

\b(\w+)\b \b(\w+)\b

\b(?<Word>\w+)\b\s+\k<Word>\b

匹配a内容

(?<t>b) \k<t> 匹配b内容

(?:b) 不捕获b内容

(a)

(?:a)

(?<t>a)

（？#注释的内容）

(a)

(?:a)

(？<=a)

(?:a)

(?)

捕获

(a)

(?<t>a) (?””a) \k<t>

(?:a)

零点断言

(?=a)零宽度正预测先行断言

(?<=a)零宽度正回顾后发断言

(?<=\s)\d+(?=\s)

I'm singing while you're dancing.时，它会匹配sing和danc。

\b\w+(?=ing\b)

查找reading a book时，它匹配ading。

(?<=\bre)\w+\b

((?<=\d)\d{3})+\b，用它对1234567890进行查找时结果是234567890

((?<=\d)\d{3})+\b

==((?<=\d)\d\d\d)+\b

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐，直接就观察出来了)，你会发现，如果q出现在单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是因为[^u]总要匹配一个字符，所以如果q是单词的最后一个字符的话，后面的[^u]将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的\w*\b将会匹配下一个单词，于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题，因为它只匹配一个位置，并不消费任何字符。现在，我们可以这样来解决这个问题：\b\w*q(?!u)\w*\b

(?!exp)

匹配后面跟的不是exp的位置

\b\w*q(?!u)\w*\b

\d{3}(?!\d)

\d\d\d

\b((?!abc)\w)+\b

断言

(?=a)

(?<=a)

(?!a)

零宽度负预测先行断言

(?!a)

（？<!）

零宽度负回顾后发断言

(?<![a-z])\d{7}

请详细分析表达式

(?<=<(\w+)>).*(?=<\/\1>)，这个表达式最能表现零宽断言的真正用途

零宽度负预测先行断言

(?!a)

零宽度负回顾后发断言

(?<!a)

"Warning!" + '\u0007' 中的 "\u0007"

[\b]{3,}

"Name\t Addr\t" 中的 "Name\t" 和 "Addr\t"

查找I'm singing while you're dancing.时，它会匹配sing和danc。

\b\w+(?=ing\b)

(?<=\bsing)\w+\b

(?<=\s)\d+(?=\s)

\b\w*q[^u]\w*\b

例如在查找reading a book时，它匹配ading。

(?<=\bre)\w+\b

零宽度正回顾后发端阳

零宽度正预测先行断言

\b\w+(?=ing\b)

\b\w*q(?!u)\w*\b

零宽度负预测先行断言

零宽度负回顾后发断言

比如匹配一个单词的前两个字母不包括aeiou

\b(?<![aeiou])\w+\b

比如匹配一个单词的含q且后面不匹配aeiou

\b\w*q(?![aeiou])\w*\b

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

例：一个字符串“abcdakdjd”

regex="a.*?d"; 懒惰匹配

abcd

regex2="a.*d"; 贪婪匹配

abcdakdjd

零宽度正预测先行断言

(?=a)

例子： welcome to china！

匹配wel

\b\w+(?=come\b)

零宽度正回顾后发断言

(?<=a)

匹配come

(?<=\bwel)\w+\b

零宽度负预测先行断言

(?!a)

匹配单词含l后面跟的不是c的单词

\b\w*l(?!c)\w*\b

领宽度负回顾后发断言

(?<!a)

匹配单词含l前面不是c的单词

\b\w*(?<!c)l\w*\b

*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）

代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

表6.常用的处理选项
名称	说明
IgnoreCase(忽略大小写)	匹配时不区分大小写。
Multiline(多行模式)	更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式)	更改.的含义，使它与每一个字符匹配（包括换行符\n）。
IgnorePatternWhitespace(忽略空白)	忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获)	仅捕获已被显式命名的组。

有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构，这时简单地使用$.+$则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式，懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等，比如( 5 / ( 3 + 2 ) ) )，那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的，配对的括号之间的内容呢？

为了避免(和\(把你的大脑彻底搞糊涂，我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx <aa <bbb> <bbb> aa> yy这样的字符串里，最长的配对的尖括号内的内容捕获出来？

这里需要用到以下的语法构造：

(?'group') 把捕获的内容命名为group,并压入堆栈(Stack)
(?'-group') 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败
(?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分
(?!) 零宽负向先行断言，由于没有后缀表达式，试图匹配总是失败

代码/语法	说明
\a	报警字符(打印它的效果是电脑嘀一声)
\b	通常是单词分界位置，但如果在字符类里使用代表退格
\t	制表符，Tab
\r	回车
\v	竖向制表符
\f	换页符
\n	换行符
\e	Escape
\0nn	ASCII代码中八进制代码为nn的字符
\xnn	ASCII代码中十六进制代码为nn的字符
\unnnn	Unicode代码中十六进制代码为nnnn的字符
\cN	ASCII控制字符。比如\cC代表Ctrl+C
\A	字符串开头(类似^，但不受处理多行选项的影响)
\Z	字符串结尾或行尾(不受处理多行选项的影响)
\z	字符串结尾(类似$，但不受处理多行选项的影响)
\G	当前搜索的开头
\p{name}	Unicode中命名为name的字符类，例如\p{IsGreek}
(?>exp)	贪婪子表达式
(?<x>-<y>exp)	平衡组
(?im-nsx:exp)	在子表达式exp中改变处理选项
(?im-nsx)	为表达式后面的部分改变处理选项
(?(exp)yes\|no)	把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no
(?(exp)yes)	同上，只是使用空表达式作为no
(?(name)yes\|no)	如果命名为name的组捕获到了内容，使用yes作为表达式；否则使用no
(?(name)yes)	同上，只是使用空表达式作为no