正则表达式案例分析

1.需要转移的特殊字符

$ ( ) * + . ? [ \ ^ {

在文本中遇到 这几种特殊字符想转为文本,需要通过反斜杠\转义:

/\$ \( \) \* \+ \. \? \[ \\ \^ \{/g

也许你会问到 -减号符,}右花括号,]右中括号为何不在内?首先减号符是在[]中的,在前面没遇到转义的[左方括号时,减号符及右方括号-]是当普通文本处理,无需转义,而花括号也如此

  • Regexp : /\{\w+}\[hello-world]/

  • Text : {abc}[hello-world] hey! hey! hey!

2.再次匹配先前匹配的文本

如果需要匹配一个 yyyy-mm-dd 格式的日期,其中月份和日期都是年份的个十位

/\b\d\d(\d\d)-\1-\1\b/

反斜杠\1-9可以得到前面分组(\d\d)捕获到的结果,如果是10-99呢?那就\10\99

  • Regexp : /\b\d\d(\d\d)-\1-\1\b/

  • Text : 2008-08-08 

3.单词边界

在单词边界匹配的位置,单词字符后面或前面不与另一个单词字符直接相邻。

"That dang-tootin' #!@#$ varmint's cost me $199.95!".replace(/\b/g,function(){
 console.log(arguments)
});
//output
["", 0, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 4, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 5, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 9, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 10, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 16, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 24, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 31, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 32, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 33, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 34, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 38, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 39, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 41, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 43, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 46, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 47, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]
["", 49, "That dang-tootin' #!@#$ varmint's cost me $199.95!"]

\b`属于匹配位置的元字符,一般作占位作用,而不被捕获,同属于匹配位置的还有匹配行起始位`^`和行结束位`$

4.处理24小时制时间

24小时制可以分为三段:

  1. 00 - 09

  2. 10 - 19

  3. 20 - 23

先匹配第一阶段: /[0][0-9]/

再接着匹配第二阶段:/[01][0-9]/

第三阶段以此类推?/[012][0-9]/

明显不合适,因为不可能出现大于23以上的数字,那么只能开分支了 /[01][0-9]|2[0-3]/

也许你会说,00-09如果要匹配“没有补零”的情况呢?(即:0,1,2,3,4,5...)

我们可以借助一下量词?匹配 /[01]?[0-9]|2[0-3]/

  • Regexp : /([01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]/

5.千分位

我们在一些场景里需要将7654321输出成7,654,321这样的格式,这就是千分位,用正则表达式去处理的话,关键是获取位置,那么首先想到的就是要利用非单词边界\B,下面这条正则是能成功取得千分位的位置的:

/\B(?=(\d{3})+(?!\d))/g

先将这个正则分解成三部分:

1 )、 /\B(?=\d)/ 这是\B是为了防止出现,123起始位置被匹配的问题,(?=\d)是非单词边界后紧跟数字

2 )、 尝试一下8位数的数字: '12345678' 在 /\B(?=(\d{3})+)/匹配得到什么结果呢?

'12345678'.replace(/\B(?=(\d{3})+)/g,function(){console.log(arguments);return '|'})
["", "567", 1, "12345678"]
["", "678", 2, "12345678"]
["", "456", 3, "12345678"]
["", "567", 4, "12345678"]
["", "678", 5, "12345678"]

"1|2|3|4|5|678"

首先符合非单词边界\B的有1,2,3,4,5,6,7的右边位置,而后面也同样紧跟数字2,3,4,5,6,7

其次符合\d{3}的有234,345,456,567,678,但后面跟个加号+结果就不一样了

那为什么会得到567,678,456,567,678,这样奇怪的匹配?原理如下:

1. 匹配`\B`第1个非单词边界 `1`的右边位置,则后面(\d{3})+的结果为:234、567,8后面无法补齐3位,匹配得到567
2. 匹配`\B`第2个非单词边界 `2`的右边位置,则后面(\d{3})+的结果为:345、678,匹配得到678
3. 匹配`\B`第3个非单词边界 `3`的右边位置,则后面(\d{3})+的结果为:456、78后面无法补齐3位,匹配得到456
4. 匹配`\B`第4个非单词边界 `4`的右边位置,则后面(\d{3})+的结果为:567、8后面无法补齐3位,匹配得到567
5. 匹配`\B`第5个非单词边界 `5`的右边位置,则后面(\d{3})+的结果为:678
6. 匹配`\B`第6个非单词边界 `6`的右边位置,但78无法补齐3位,
7. 同6
8. 最终小括号分组匹配得到的分别是:567,678,456,567,678

 3)、最后 (?!\d) 是前面匹配成功后跟的非数字,那连起来就是:

12,345,678
1. 匹配`\B`第1个非单词边界 `1`的右边位置,则后面(\d{3})+的结果为:234、567,后面跟着8,不匹配
2. 匹配`\B`第2个非单词边界 `2`的右边位置,则后面(\d{3})+的结果为:345、678,后面跟着非数字,位置匹配成功
3. 匹配`\B`第3个非单词边界 `3`的右边位置,则后面(\d{3})+的结果为:456,后面跟着7、8不匹配
4. 匹配`\B`第4个非单词边界 `4`的右边位置,则后面(\d{3})+的结果为:567,后面跟着8,不匹配
5. 匹配`\B`第5个非单词边界 `5`的右边位置,则后面(\d{3})+的结果为:678,后面跟着非数字,位置匹配成功
6. 最终得到得到可插入逗号的位置为2,5

 6.重复分组

在上面介绍千分位的时候,就有用到重复分组,这是一个很容易理解错误的点,至少我开始的时候是理解错误的。

假定用这个正则去匹配 1234567890,开始我以为分组小括号(\d\d\d)的最终结果是 123456789都能拿到,但结果却只有789

重复分组的匹配在每次引擎退出该分组的时候被捕获,并会覆盖该分组在之前匹配的任何文本

引擎工作的步骤 :

1. 第一次匹配,捕获到 `123`,退出分组
2. 第二次匹配,捕获到 `456`, 覆盖上一次捕获的`123`,退出分组
3. 第三次匹配,捕获到 `789`,覆盖上一次捕获的`456`,退出分组
4. 退出重复分组,结束

 因为重复分组最后一次循环存储的是789,另外两次分组匹配,也就是123,456是无法被获取的。

如果想要获得所有结果,就要把重复匹配放进分组中 /((\d\d\d){3})/

7.获取<p>....</p>中的内容

/<p>(.*?)<\/p>/g.exec('<p>Hello,<em>world</em></p><p>Hello,Janking</p>')

运行结果:

[
	"<p>Hello,<em>world</em></p>",
	 "Hello,<em>world</em>", 
	 index: 0, 
	 input: "<p>Hello,<em>world</em></p><p>Hello,Janking</p>"
]

贪婪匹配

属于贪婪模式的量词,也叫做匹配优先量词,包括:{m,n}{m,}?*+

惰性匹配

在匹配优先量词后加上?,即变成属于惰性匹配的量词,也叫做忽略优先量词,包括:{m,n}?{m,}???*?+?

回溯

当前前面分支/重复匹配成功后,没有多余的文本可被正则后半部分匹配时,会产生回溯

用一个简单的例子来解释一下贪婪匹配和惰性匹配!

贪婪 : /\d+\b/

惰性 : /d+?\b/

文本 : 1234a

贪婪正则匹配 1234a 时的过程是这样的:

1. \d+ 匹配得到 1234
2. \b  却匹配失败(\b 是分词边界匹配,用来获取位置,而不是文本,上一节有讲到)
4. 这个时候,\d+会尝试回吐一个字符,即匹配结果为 123 ,可\b还是匹配失败!
5. 那就继续回吐,一直到 1,还是匹配失败,那么这个正则就整体匹配失败了
6. 这个回吐匹配结果的过程就是回溯

 惰性正则匹配 1234a 时的过程是这样的:

1. \d+? 首先匹配,结果是1 ,紧接着 \b 匹配失败
2. 那就 \d+? 继续匹配,结果是 12 ,紧接着 \b 还是匹配失败
3. \d+? 一直匹配到1234,紧接着的 \b 依然匹配失败
4. 结果整个正则匹配不成功

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
正则表达式经典实例》讲解了基于8种常用的编程语言使用正则表达式的经典实例。书中提供了上百种可以在实战中使用的实例,以帮助读者使用正则表达式来处理数据和文本。对于如何使用正则表达式来解决性能不佳、误报、漏报等常见的错误以及完成一些常见的任务,《正则表达式经典实例》给出了涉及基于C#、Java、JavaScript、Perl、PHP、Python、Ruby和VB.NET等编程语言的解决方案。《正则表达式经典实例》的读者对象是对正则表达式感兴趣的软件开发人员和系统管理员。 《正则表达式经典实例》旨在教会读者很多新的技巧以及如何避免语言特定的陷阱,读者可以通过《正则表达式经典实例》提供的实例解决方案库来解决实践中的复杂问题。 《正则表达式经典实例》:每个程序员都会遇到需要使用正则表达式的情况,但是要用好正则表达式却并不容易。《正则表达式经典实例》提供了100多个实例,以帮助读者使用正则表达式处理数据和文本。即使有经验的用户也经常会遇到性能不佳、误报、漏报等让人挠头的错误,《正则表达式经典实例》对于如何使用正则表达式来解决一些常见的问题给出了按部就班的解决方案,其中包括C#、Java、JavaScript、Perl、PHP、Python、Ruby和VB.NET的实例。 《正则表达式经典实例》主要包括以下内容: 通过一个精练的教程理解正则表达式的基本原理和技巧; 在不同的编程语言和脚本语言中有效使用正则表达式; 学习如何对输入进行合法性检查和格式化; 处理单词、文本行、特殊字符和数值; 学习如何在uRL、路径、标记语言和数据交换中使用正则表达式; 学习更高深的正则表达式特性中的微妙之处; 理解在不同语言中正则表达式的API、语法和行为之间的区别; 创建更好的正则表达式来满足个性化的需求。 使用8种编程语言的详细解决方案,包括一个正则表达式简明教程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流年ꦿ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值