正则表达式基础

最新推荐文章于 2023-02-20 14:29:55 发布

zxwo0o

最新推荐文章于 2023-02-20 14:29:55 发布

阅读量486

点赞数

分类专栏： php学习历程文章标签：正则表达式 windows 电话 events qq 扩展

本文链接：https://blog.csdn.net/zxwo0o/article/details/4589733

版权

php学习历程专栏收录该内容

12 篇文章 0 订阅

订阅专栏

元字符描述

　　匹配任何单个字符。例如正则表达式r.t匹配这些字符串：rat、rut、r t，但是不匹配root。

　　匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾，但是不能匹配字符串"They are a bunch of weasels."。

　　匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始，但是不能匹配"What and When in the"。

　　匹配0或多个正好在它之前的那个字符。例如正则表达式.*意味着能够匹配任意数量的任何字符。

　　这是引用符，用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式/$被用来匹配美元符号，而不是行尾，类似的，正则表达式/.用来匹配点字符，而不是任何字符的通配符。

　　[ ]

　　[c1-c2]

　　[^c1-c2]

　　匹配括号中的任何一个字符。例如正则表达式r[aou]t匹配rat、rot和rut，但是不匹配ret。可以在括号中使用连字符-来指定字符的区间，例如正则表达式[0-9]可以匹配任何数字字符；还可以制定多个区间，例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”，要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符，例如正则表达式[^269A-Z] 将匹配除了2、6、9和所有大写字母之外的任何字符。

　　/< />

　　匹配词（word）的开始（/<）和结束（/>）。例如正则表达式/<the能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。

　　/( /)

　　将 /( 和 /) 之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用到的符号来引用。

　　将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。

　　匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。

　　匹配0或1个正好在它之前的那个字符。注意：这个元字符不是所有的软件都支持的。

　　/{i/}

　　/{i,j/}

　　匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]/{3/} 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式[0-9]/{4,6/} 匹配连续的任意4个、5个或者6个数字字符。注意：这个元字符不是所有的软件都支持的。

元字符

现在你已经知道几个很有用的元字符了，如/b,.,*，还有/d.当然还有更多的元字符，比如/s匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。/w匹配字母或数字或下划线或汉字。

下面来试试更多的例子：

/ba/w*/b匹配以字母a开头的单词——先是某个单词开始处(/b)，然后是字母a,然后是任意数量的字母或数字(/w*)，最后是单词结束处(/b)（好吧，现在我们说说这里的单词是什么意思吧：就是几个连续的/w。不错，这与学习英文时要背的成千上万个同名的东西的确关系不大）。

/d+匹配1个或更多连续的数字。这里的+是和*类似的元字符，不同的是*匹配重复任意次(可能是0次)，而+则匹配重复1次或更多次。

/b/w{6}/b匹配刚好6个字母/数字的单词。

常用的元字符
代码	说明
.	匹配除换行符以外的任意字符
/w	匹配字母或数字或下划线或汉字
/s	匹配任意的空白符
/d	匹配数字
/b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

元字符^（和6在同一个键位上的符号）以及$和/b有点类似，都匹配一个位置。^匹配你要用来查找的字符串的开头，$匹配结尾。这两个代码在验证输入的内容时非常有用，比如一个网站如果要求你填写的QQ号必须为5位到12位数字时，可以使用：^/d{5,12}$。

这里的{5,12}和前面介绍过的{2}是类似的，只不过{2}匹配只能不多不少重复2次，{5,12}则是必须重复最少5次，最多12次，否则都不匹配。

因为使用了^和$，所以输入的整个字符串都要用来和/d{5,12}来匹配，也就是说整个输入必须是5到12个数字，因此如果输入的QQ号能匹配这个正则表达式的话，那就符合要求了。

和忽略大小写的选项类似，有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，^和$的意义就变成了匹配行的开始处和结束处。

字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没法指定它们，因为它们会被解释成其它的意思。这时你就必须使用/来取消这些字符的特殊意义。因此，你应该使用/.和/*。当然，要查找/本身，你也得用//.

例如：www/.unibetter/.com匹配www.unibetter.com，c://windows匹配c:/windows,2/^8匹配2^8(通常这是2的8次方的书写方式)。

重复

你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。下面是正则表达式中所有指定重复的方式：

常用的限定符
代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

下面是一些使用重复的例子：

Windows/d+匹配Windows后面跟1个或更多数字

13/d{9}匹配以13后面跟9个数字(中国的手机号)

^/w+匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪个意思得看选项设置)

字符类

要想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集的元字符，但是如果你想匹配没有预定义元字符的字符集比如元音字母(a,e,i,o,u),怎么办？

很简单，你只需要在中括号里列出它们就行了，像[aeiou]就匹配任何一个元音字母，[.?!]匹配标点符号(.或?或!)(英文语句通常只以这三个标点结束)。注意，我们不需要写成[/./?!]。

我们也可以轻松地指定一个字符范围，像[0-9]代表的含意与/d就是完全一致的：一位数字，同理[a-z0-9A-Z_]也完全等同于/w（如果只考虑英文的话）。

下面是一个更复杂的表达式：/(?0/d{2}[) -]?/d{8}。

这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。我们对它进行一些分析吧：首先是一个转义字符/(,它能出现0次或1次(?),然后是一个0，后面跟着2个数字({2})，然后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(/d{8})。不幸的是，它也能匹配010)12345678或(022-87654321这样的“不正确”的格式。要解决这个问题，请在本教程的下面查找答案。

反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义：

常用的反义代码
代码/语法	说明
/W	匹配任意不是字母，数字，下划线，汉字的字符
/S	匹配任意不是空白符的字符
/D	匹配任意非数字的字符
/B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

例子：/S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

替换

好了，现在终于到了解决3位或4位区号问题的时间了。正则表达式里的替换指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开。听不明白？没关系，看例子：

0/d{2}-/d{8}|0/d{3}-/d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。

/(0/d{2}/)[- ]?/d{8}|0/d{2}[- ]?/d{8}这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用替换|把这个表达式扩展成也支持4位区号的。

/d{5}-/d{4}|/d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用替换时，顺序是很重要的。如果你把它改成/d{5}|/d{5}-/d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配替换时，将会从左到右地测试每个分枝条件，如果满足了某个分枝的话，就不会去管其它的替换条件了。

Windows98|Windows2000|WindosXP这个例子是为了告诉你替换不仅仅能用于两种规则，也能用于更多种规则。

分组

我们已经提到了怎么重复单个字符（直接在字符后面加上限定符就行了）；但如果想要重复一个字符串又该怎么办？你可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了，你也可以对子表达式进行其它一些操作(后面会有介绍)。

(/d{1,3}/.){3}/d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：/d{1,3}匹配1到3位的数字，(/d{1,3}/.}{3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(/d{1,3})。

不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址(IP地址中每个数字都不能大于255)。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：((2[0-4]/d|25[0-5]|[01]?/d/d?)/.){3}(2[0-4]/d|25[0-5]|[01]?/d/d?)。

理解这个表达式的关键是理解2[0-4]/d|25[0-5]|[01]?/d/d?，这里我就不细说了，你自己应该能分析得出来它的意义。

zxwo0o

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式基础

元字符描述　　.　　匹配任何单个字符。例如正则表达式r.t匹配这些字符串：rat、rut、r t，但是不匹配root。　　$　　匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"Hes a weasel"的末尾，但是不能匹配字符串"They are a bunch of weasels."。　　^　　匹配一行的开始。例如正则表达式^When in能够匹配字符串
复制链接

扫一扫