正则表达式详解

不会就跑路的小白

已于 2022-02-19 22:44:37 修改

阅读量1.4k

点赞数 1

分类专栏：正则表达式文章标签：正则表达式前端后端

于 2022-01-13 17:44:47 首次发布

本文链接：https://blog.csdn.net/weixin_54217950/article/details/122478499

版权

正则表达式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

元字符

.  : 匹配除换行符外的任意字符。 例如：1，b。*，+，#等字符。
\w : 匹配字母，数字，下划线，汉字。
\s ：匹配任意空白字符。
\d : 匹配数字。
\b :匹配单词的开始或结束。
^ : 匹配字符串的开始 。 注意：（ 在集合字符[^b]表示非的意思）
$ : 匹配字符串的结束

反义字符

\W: 匹配任意不是字母，数字，下划线，汉字的字符。
\S: 匹配任意不是空白符的字符。
\D ：匹配任意非数字字符。
\B ： 匹配不是单词开头或者结束的位置。

限定字符

* ：重复零次或任意次。
+ ：重复一次或任意次。
？:  重复零次或一次。
{n} : 重复n次。
{n，} ：重复n次或更多次。
{n，m} ：重复n到m次。 注意：在python中会尽可能多的匹配次数。

转义字符

在实际的开发中，可能会遇到要比配元字符的情况，这个时候就需要进行字符转义，如元字符 .  *  \ 需要转换为\.   \*   \\
例如： 需要匹配qq邮箱 \d{8,}+qq+\.+com  在这里的. 就需要加斜杠。

字符分组

字符分组多用于将多个字符重复，主要通过使用小括号()来进行分组
形如：（\d\w){3} 重复匹配3次（\d\w)

常用于表示IP地址   形如： ((25[0-5]|2[0-4][0-9]|[0-1]\d\d)\.){3}(25[0-5]|2[0-4][0-9]|[0-1]\d\d)

解析：先把IP地址分为两部分一部分是123.123.123. 另一部分是123，又因Ip最大值为255，所以先使用分组，然后在组里边再进行选择，组里也有三部分，0-199,200-249,250-255，分别和上述的表达是对应，最后还要注意分组之后还要加上一个.，因为是元字符所以要转义故加上\. 然后再把这部分整体看做是一个组，重复三次，再加上仅有数字的一组也就是不带\.的那一组即可完成IP地址的校验

在这里插入图片描述

字符分支

字符分枝多用于满足不同情况的选择，用“|”将不同的条件分割开来，比如有些固定电话区号有三位，有些有四位，这个时候可以采用字符分枝
例如：\d{3}-\d{8}|\d{4}-\d{8}  可以匹配两种不同长度区号的固定电话

懒惰匹配和贪婪匹配

贪婪匹配：正则表达式中包含重复的限定符时，通常的行为是匹配尽可能多的字符。
懒惰匹配，有时候需要匹配尽可能少的字符。
例如： a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。但是我们此时可能需要匹配的是ab这样的话就需要用到懒惰匹配了。懒惰匹配会匹配尽可能少的字符
常用的懒惰匹配限定符如下

在这里插入图片描述

后向引用

后向引用用于重复搜索前面某个分组匹配的文本。
使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

示例：\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty。
这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b)，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符(\s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(\1)。