js正则表达式
定义:
与在系统中查找文件时使用的通配符类似,正则表达式也是用文本匹配的式子。因此,正则表达式就是匹配一类字符串的表达式。
正则表达式可以更加精确的描述出需求。
例如,可以编写一个正则表达式来匹配一类电话号码(以0开头,后面接2到3位数字,紧接着一个连字符“-”,然后接7到8位数字,如:0731-87654321,060-1234567等)
创建正则表达式:
使用构造函数RegExp()
如: var regExpObj = new RegExp(“a[0-9]”);
使用正则表达式字面量
如: var regObj = /a[0-9]/;
一般使用第二种方法创建正则表达式。
正则表达式标志:
使用正则表达式
创建了正则表达式对象,如何使其发挥相应的作用呢?在javascript中,有以下几种方式:
调用RegExp对象的相关方法
调用String对象的相关方法
调用RegExp对象的相关方法
test() 方法用于检测一个字符串是否匹配某个模式。
exec() 方法用于检索字符串中的正则表达式的匹配
方法 | 语法 | 返回值 | 备注 |
---|---|---|---|
test() | regExpObj.test(str) | 如果string中含有与regExpObj相匹配的文本,则返回true。否则返回false | 不管regExpObj有无全局标志g,每调用一次test()或exec()方法,均只执行一次匹配。不同的是,如果有全局标志,则执行时会记录lastIndex属性,下一次再执行时,从lastIndex属性开始匹配。 |
exec() | regExpObj.exec(str) | 返回一个数组,其中存放匹配的结果(该数组的第一个元素为匹配的文本,其余元素为正则表达式的子表达式的值)。如果未找到匹配,则返回值为 null |
//test()
<script>
var str1 = "11ab22";
var str2 = "b1122";
var reg1 = /.b/;
var reg2 = /.b/g;
document.write(reg1.test(str1)); //true
document.write("<br />");
document.write(reg2.test(str1)); //true
document.write("<br /><br /><br />");
document.write(reg2.test(str1)); //true
document.write("<br /><br /><br />");
document.write(reg1.test(str2)); //false
document.write("<br />");
document.write(reg2.test(str2)); //false
</script>
//RegExp对象的exec()
<script>
var str1 = "11ab22";
var reg1 = /.b/;
var reg2 = /(.)b/; //正则表达式中用小括号扩起的内容,称为子表达式
var reg3 = /(.)b/g;
document.write(reg1.exec(str1)); //输出ab
document.write("<br />");
document.write(reg2.exec(str1)); //输出ab,a 数组的第2个值是子表达式的值
document.write("<br />");
document.write("<br />");
document.write(reg3.exec(str1)); //输出ab,a 因为是全局匹配,所以执行该语句之后,
//reg3的lastIndex为4(b之后)
document.write("<br />");
document.write(reg3.exec(str1)); //输出null reg3将从lastIndex开始执行匹配
</script>
调用String对象的相关方法
方法 | 语法 | 返回值 | 备注 |
---|---|---|---|
search() | stringObject.search(regexp) | stringObject 中第一个与 regexp 相匹配的子串的起始位置。如果没有找到任何匹配的子串,则返回 -1 | 该方法忽略全局标志g |
match() | stringObject.match(regexp) | 存放匹配结果的数组。 | 如果regexp没有全局标志g,则match() 方法就只能在 stringObject 中执行一次匹配;否则,match() 方法就执行多次匹配,返回stringObject 中所有匹配的子字符串。 |
replace() | stringObject.replace(regexp,replacement) | 一个新的字符串,是用 replacement 替换了 regexp 的第一次匹配或所有匹配之后得到的 | 如果 regexp 具有全局标志 g,那么 replace() 方法将替换所有匹配的子串。否则,它只替换第一个匹配子串 |
//String的search()
<script>
var str1 = "11ab22";
var reg1 = "/Ab/";
var reg2 = /Ab/i; //标志i 表示匹配时忽略大小写
document.write(str1.search(reg1)); //输出-1
document.write("<br />");
document.write(str1.search(reg2)); //输出2
</script>
//String的match()
<script>
var str1 = "11ab22ab11acb";
var reg1 = /ab/;
var reg2 = /ab/g;
document.write(str1.match(reg1)); //输出ab
document.write("<br />");
document.write(str1.match(reg2)); //输出ab,ab
</script>
//String的replace()
<script>
var str1 = "ab 11 ab ";
var reg1 = /ab/;
var reg2 = /ab/g;
var str3 = str1.replace(reg1,"n");
var str4 = str1.replace(reg2,"n");
document.write(str3); //输出n 11 ab
document.write("<br />");
document.write(str4); //输出n 11 n
</script>
正如前面示例所示,正则表达式由一系列的字符构成。主要包括2大类:
字符直接量
元字符
字符直接量
字符直接量即普通的字符,在正则表达式没有特殊的含义。如:/java/ 就与所有的包含字串”java”的字符串相匹配。在javascript中,常见的直接量如下
直接量 | 匹配 |
---|---|
字母,数字 | 自身 |
\n | 换行符 |
\t | 制表符 |
\r | 回车符 |
\f | 换页符 |
元字符
正则表达式中有许多标点符号有着特殊的含义。例如:^代表字符串的开头,$代表字符串的结尾,点号.表示出换行符之外的任意字符,等等。这些字符称为元字符 。
如果需要以直接量的形式使用元字符,则需使用\来转义。 例如,如果表示直接量字符^ ,在使用正则表达式字面量时就需要转义,写出^ ;在使用RegExp构造函数时,需使用\转义,写成\^。
无论是使用/…/的形式还是使用构造函数RexExp(),创建一个RegExp对象都是比较简单的,较为困难的是使用正则表达式的语法来描述字符的模式 。
正则表达式的语法主要涉及:
字符类
量词
候选
子表达式
锚字符
字符类
将直接量字符放进方括号[]内,就可以组合成字符类
例如,正则表达式/[abc]/就和字母“a”,或者“b”,或者”c”相匹配
还可以定义字符类的否定
例如/[^abc]/就匹配字符”a”,”b”,”c”之外的任意单个字符
如果要表示某个范围类的字符,还可以使用连字符-
例如,[0-9]匹配0到9之间的任意一个数字
某些字符类用的非常多,所以Javascript中包含了一些特殊字符和转义序列来表示这些常用的字符类.
例如,\s表示任意的空白字符,\S表示任意的非空白字符
字符 | 匹配 |
---|---|
[…] | 某个范围内的任意单个字符 |
[^…] | 不在某个范围内的任意单个字符 |
. | 任意字符(换行符等行终止符除外) |
\w | 任意单字字符。等价于[a-zA-Z0-9_] |
\W | 任意非单字字符。等价于[^a-zA-Z0-9_] |
\s | 任意单个空白符 |
\S | 除空白符以外的单个字符 |
\d | 任意单个数字字符。等价于[0-9] |
\D | 除数字字符之外的任意单个字符。等价于[^0-9] |
<script>
var str1 = "11d22";
var reg1 = /\d\d[abc-e]\w/;
document.write(reg1.test(str1)); //输出true
</script>
量词
字符类都只匹配单个字符。如果要匹配5个数字,可以使用正则表达式/\d\d\d\d\d/, 这样做是比较麻烦的。量词就可以解决类似问题。
量词可以指定某个特定模式出现的次数。当指定某个模式应当出现的次数时
可以硬性指定其出现的次数。例如,指定某个字符出现4次
也可以指定软性数量。 例如,这个字符至少出现一次
量词 | 含义 |
---|---|
{n} | 正好出现n次 |
{n,m} | 至少出现n次,不超过m次 |
{n,} | 至少出现n次 |
? | 出现0次或1次。等价于{0,1} |
+ | 出现1次或多次。 |
* | 出现零次或多次(任意次)。 |
<script>
var str1 = "11d22AAAA";
var reg1 = / \d{2}[a-z]\d{2}A+/;
document.write(reg1.test(str1)); //输出true
</script>
候选
有时要构建一个匹配所有可能性的模式是很困难的。例如,要用正则表达式匹配”hello”和”javascript”要如何做呢?
写两个正则表达式进行匹配
var reg1 = /hello/;
var reg2 = /javascript/;
使用候选
正则表达式提供了候选操作符“|”来解决这种问题。候选操作符类似于“或者” .
<script>
var str1 = "hello";
var str2 = "javascript";
var reg1 = /hello|javascript/;
document.write(reg1.test(str1)); //输出true
document.write(reg1.test(str2)); //输出true
</script>
子表达式
子表达式用于处理字符序列
例如:需要匹配hellohello,
可以构造如下正则表达式: /hellohello
使用子表达式,则可以写成:
/(hello){2}/
<script>
var reg = /([bd]ad?)*/;
var str1 = "";
var str2 = "ba";
var str3 = "da";
var str4 = "bad";
var str5 = "dad";
var str6 = "badba";
var str7 = "dadbadda";
document.write(reg.test(str1));
document.write(reg.test(str2));
document.write(reg.test(str3));
document.write(reg.test(str4));
document.write(reg.test(str5));
document.write(reg.test(str6));
document.write(reg.test(str7));
</script>
有时候在使用完正则表达式之后,还需要利用到子表达式。子表达式存储在一个特殊的地方以备用。存储在子表达式中的值,称之为反向引用
例如,表达式(A?(B?(C?)))将产生编号从1-3的反向引用
编号1:(A?(B?(C?)))
编号2:(B?(C?))
编号3: (C?)
<script>
var str = "#123456789";
var reg1 = /#(\d+)/;
var reg2 = /#(\d)+/;
document.write(reg1.test(str)); //输出true
document.write("<br>");
document.write(RegExp.$1); //输出123456789
document.write("<hr>");
document.write(reg2.test(str)); //输出true
document.write("<br>");
document.write(RegExp.$1); //输出9
</script>
锚字符
根据前面所学的知识,对于正则表达式/he/,字符串”he”,”hello”,”hefda”都可以与之匹配。但有时我们只需要找出一篇文章中所有的单词”he”,而”hello”等则不需要找出。这时要将正则表达式修改为/\bhe\b/ 。这里的\b是正则表达式中锚字符 。
锚字符 | 含义 |
---|---|
\b | 匹配词语的边界。即位于\w和\W之间的位置 |
\B | 匹配非词语边界的字符 |
^ | 匹配字符串的开头 |
$ | 匹配字符串的结尾 |
<script>
var str1 = "newture";
var str2 = "1newture";
var reg = /^[a-zA-Z]\w{5,15}$/;
document.write(reg.test(str1)); //输出true
document.write("<br>");
document.write(reg.test(str2)); //输出false
</script>
常用正则表达式举例
验证用户名和密码:/1\w{5,15}KaTeX parse error: Undefined control sequence: \d at position 51: …16位; 验证电话号码:/^(\̲d̲{3,4}-)\d{7,8}/ 。正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
验证身份证号:/^\d{17}[\d|X]|\d{15}KaTeX parse error: Undefined control sequence: \w at position 15: / 验证Email地址:/^\̲w̲+([-+.]\w+)*@\w…/
只能输入由数字和26个英文字母组成的字符串:/2+KaTeX parse error: Can't use function '\.' in math mode at position 18: …整数或者小数:/^[0-9]+\̲.̲{0,1}[0-9]{0,2}/
只能输入数字:/3*KaTeX parse error: Undefined control sequence: \d at position 15: / 只能输入n位的数字:/^\̲d̲{n}/。
只能输入至少n位的数字:/^\d{n,}KaTeX parse error: Undefined control sequence: \d at position 18: … 只能输入m~n位的数字:/^\̲d̲{m,n}/
只能输入零和非零开头的数字:/^(0|[1-9][0-9])
/
只
能
输
入
有
两
位
小
数
的
正
实
数
:
/
[
0
−
9
]
+
(
.
[
0
−
9
]
2
)
?
/ 只能输入有两位小数的正实数:/^[0-9]+(.[0-9]{2})?
/只能输入有两位小数的正实数:/[0−9]+(.[0−9]2)?/
只能输入有1~3位小数的正实数:/4+(.[0-9]{1,3})?KaTeX parse error: Undefined control sequence: \+ at position 16: / 只能输入非零的正整数:/^\̲+̲?[1-9][0-9]*/
只能输入非零的负整数:/^-[1-9][]0-9/$
只能输入长度为3的字符:/^.{3}
/
只
能
输
入
由
26
个
英
文
字
母
组
成
的
字
符
串
:
/
[
A
−
Z
a
−
z
]
+
/ 只能输入由26个英文字母组成的字符串:/^[A-Za-z]+
/只能输入由26个英文字母组成的字符串:/[A−Za−z]+/
只能输入由26个大写英文字母组成的字符串:/5+
/
只
能
输
入
由
26
个
小
写
英
文
字
母
组
成
的
字
符
串
:
/
[
a
−
z
]
+
/ 只能输入由26个小写英文字母组成的字符串:/^[a-z]+
/只能输入由26个小写英文字母组成的字符串:/[a−z]+/
只能输入汉字:/6{0,}KaTeX parse error: Undefined control sequence: \w at position 20: …URL:/^http://([\̲w̲-]+\.)+[\w-]+(/…/
验证一年的12个月:/^(0?[1-9]|1[0-2])KaTeX parse error: Undefined control sequence: \+ at position 31: …10~12 非零的正整数:/^\̲+̲?[1-9][0-9]*/
只能输入非零的负整数:/^-[1-9][]0-9/*$
只能输入长度为3的字符:/^.{3}
/
只
能
输
入
由
26
个
英
文
字
母
组
成
的
字
符
串
:
/
[
A
−
Z
a
−
z
]
+
/ 只能输入由26个英文字母组成的字符串:/^[A-Za-z]+
/只能输入由26个英文字母组成的字符串:/[A−Za−z]+/
只能输入由26个大写英文字母组成的字符串:/7+
/
只
能
输
入
由
26
个
小
写
英
文
字
母
组
成
的
字
符
串
:
/
[
a
−
z
]
+
/ 只能输入由26个小写英文字母组成的字符串:/^[a-z]+
/只能输入由26个小写英文字母组成的字符串:/[a−z]+/
只能输入汉字:/8{0,}KaTeX parse error: Undefined control sequence: \w at position 20: …URL:/^http://([\̲w̲-]+\.)+[\w-]+(/…/
验证一年的12个月:/^(0?[1-9]|1[0-2])
/
。
正
确
格
式
为
:
01
~
09
和
10
~
12
验
证
一
个
月
的
31
天
:
/
(
(
0
?
[
1
−
9
]
)
∣
(
(
1
∣
2
)
[
0
−
9
]
)
∣
30
∣
31
)
/ 。正确格式为:01~09和10~12 验证一个月的31天:/^((0?[1-9])|((1|2)[0-9])|30|31)
/。正确格式为:01~09和10~12验证一个月的31天:/((0?[1−9])∣((1∣2)[0−9])∣30∣31)/。正确格式为01~09/和10~31。24.匹配首尾空白字符的正则表达式:^\s*|\s*$