正则表达式(Regular Expression) 简明教程
1. 什么是正则表达式?
正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。
通俗的讲就是按照某种规则去匹配符合条件的字符串
正则表达式的语法一般如下(js),两条斜线中间是正则主体,这部分可以有很多字符组成;i
部分是修饰符,i
的意思表示忽略大小写
/^abc/i
正则定义了很多特殊意义的字符,有名词,量词,谓词等,后面逐一介绍
2. 图形化工具理解正则表达式
辅助理解正则表达式的在线工具: regexper
URL分组替换
/http:(\/\/.+\.jpg)/
正则表达式中括号用来分组,这个时候我们可以通过用$1
来获取 group#1的内容
日期匹配与分组替换
/^\d{4}[/-]\d{2}[/-]\d{2}$/
正则分析如下:
- Start of line 是由
^
生效的表示以此开头 - 对应结尾End of line 由
$
生效表示以此结尾 - 接着看digit 由
\d
生效表示数字 - 3times 由
{4}
生效表示重复4次,digit 传过一次,3times表示再来三次循环,共4次,后面的once同理。 - 接下来,是 one of 在手机正则里面已经出现了。表示什么都行。只要符合这两个都让通过。
利用此正则,我们可以验证日期的合法性
结合URL分组替换所用到的分组特性,我们可以轻松写出日期格式化的方法
改造下这个正则
/^(\d{4})[/-](\d{2})[/-](\d{2})$/
拿到 group#1 #2 #3 的内容,对应 $1
$2
$3
3. 正则表达式语法
3.1 原义字符
没有特殊意义的字符都是简单字符,简单字符就代表自身,绝大部分字符都是简单字符,举个例子
/abc/ // 匹配 abc
/123/ // 匹配 123
/-_-/ // 匹配 -_-
/海镜/ // 匹配 海镜
3.2 转义字符
\
是转义字符,其后面的字符会代表不同的意思。它将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,n
”匹配字符“n
”。“\n
”匹配一个换行符。序列“\\
”匹配“\
”而“\(
”则匹配“(
”。
转义字符主要有三个作用:
- 为了匹配不方便显示的特殊字符,比如换行
\n
,tab符号\t
等- 正则中预先定义了一些代表特殊意义的字符,比如
\w
等- 在正则中某些字符有特殊含义(比如下面说到的),转义字符可以让其显示自身的含义
常用转义字符列表:
转义字符 | 描述 |
---|---|
\n | 匹配换行符。等价于 \x0a 和 \cJ。 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\ |