正则表达式学习笔记

简介

正则表达式是一种描绘字符串样貌的语言,用来匹配字符串。它不属于某种特定编程语言,其身影几乎无所不在,甚至是VIM等编辑器的重要组成部分。使用正则表达式能显得高端、优雅,因为它难。

下面总结下学习心得。

基本套路:

正则描述字符串的基本方法是:

元素名 + 数量

例如,匹配1个或多个’A’:A+
其中,字符'A'原封不动,“+”是一个**“限定符”**,描述数量,代表一个或多个。

再例如,匹配连续3个数字:\d{3}
其中,\d是一个**“元字符”**,代表一个数字,限定符{3}指定数量为3个。

(元字符指有特殊含义的字符,限定符指指示数量的字符)

掌握了这个基本原则,就能看懂一半正则表达式了。

元素名

普通字符

普通字符直接写,例如abc,就能匹配字符串abcde中的abc。

元字符

想表达特殊含义需要用元字符,常用的有:

代码说明
.匹配除换行符以外的任意字符
\w匹配字母或数字或下划线或汉字
\s匹配任意的空白符
\d匹配数字

指定范围

想表达某个范围用方括号包起来[],中括号视为一个整体,代表一个字符

代码说明
[ABC]ABC中的一个
[A-Z]从A到Z中的一个
[0-9a-zA-Z_]等价于\w
[^abcd]反义字符组,匹配任意不在括号内的字符。也可以写成[^a-d]

(^出现在方括号里是转义的意思,其它地方用来描述“开始位置”)

转义:

有时很不巧,需要匹配元字符本身,就需要转义,即元字符前面加反斜杠'\'

比如查找一对[],应为:\[\]

如果查找\本身,应为:\\

数量

常用限定符

代码说明
*重复零次或更多次
+重复一次或更多次
?重复零次或一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n到m次

以上,有了元素名+数量的组合就能匹配大多模式了。

例如
\d{5,12},匹配“连续5到12个数字”,如1234567;
\w+[1-9]匹配“一个或多个字符+从1到9的一位数字”,如a1或abc9。

但有时需要描述得更精确些,例如指定只能出现在开始或结束位置等。

再精确点

位置

要描述有些字符只能在开头或结尾出现,就需要描述位置。

代码说明
\b匹配单词的开始或结束
^匹配字符串的开始
$匹配字符串的结束

匹配8位电话号码时,可以使用:^\d{8}$,限制了开始结束,整个字符串都要与其匹配,这样就过滤掉了a12345678,或12345678bcd。

分组:

小括号()依然是传统意义上的分组。

例如,(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。

除了分组外,()还有“捕获”的功能,配合指示符使用可以表示匹配项,\1\9代表第n个括号分组匹配的文本。

例如:
\b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty。其中\1代表第一个括号匹配的内容。

(注意:\1\9必须与()一起服用)

分支:

也就是正则表达式中的“或”,用“|”表示。

123|abc匹配字符串123或abc

注意不要再用多余的方括号[]了!常见错误,匹配(555)或555,写成:[(\(\d{3}\))|\d{3}]。正确写法是:(\(\d{3}\))|\d{3}

以上是正则表达式的基本套路。

参考资料:

正则还有很多知识,可以参考:

正则表达式30分钟入门教程

Learn Regular Expressions (RegEx) with Ease

Javascript RegExp参考文档

测试工具:

在线测试工具

小结

一点经验是,复杂的正则表达式可以先拿出纸笔写一写,因为手写可以有层次分明的括号和间隔,看起来能稍微清晰点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值