【爬虫提取数据三板斧之一】正则表达式资料整理

正则表达式学习

元字符介绍

  • “^” :^会匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置。

  • " 会匹配行或字符串的结尾

  • “\b” :不会消耗任何字符只匹配一个位置,常用于匹配单词边界 如:我想从字符串中”This is Regex”匹配单独的单词 “is” 正则就要写成 “\bis\b” ,\b 不会匹配is 两边的字符,但它会识别is 两边是否为单词的边界

  • “\d”: 匹配数字
    例如要匹配一个固定格式的电话号码以0开头前4位后7位,如0737-5686123 正则:^0\d\d\d-\d\d\d\d\d\d\d$ 这里只是为了介绍”\d”字符,实际上有更好的写法会在 下面介绍。

  • “\w”:匹配字母,数字,下划线.
    例如我要匹配”a2345BCD__TTz” 正则:”\w+” 这里的”+”字符为一个量词指重复的次数,稍后会详细介绍。

  • “\s”:匹配空格
    例如字符 “a b c” 正则:”\w\s\w\s\w” 一个字符后跟一个空格,如有字符间有多个空格直接把”\s” 写成 “\s+” 让空格重复

  • “.”:匹配除了换行符以外的任何字符
    这个算是”\w”的加强版了”\w”不能匹配 空格 如果把字符串加上空格用”\w”就受限了,看下用 “.”是如何匹配字符”a23 4 5 B C D__TTz” 正则:”.+”

  • “[abc]”: 字符组 匹配包含括号内元素的字符
    这个比较简单了只匹配括号内存在的字符,还可以写成[a-z]匹配a至z的所以字母就等于可以用来控制只能输入英文了

几种反义

字母写成大写
* “\W” 匹配任意不是字母,数字,下划线 的字符

  • “\S” 匹配任意不是空白符的字符

  • “\D” 匹配任意非数字的字符

  • “\B” 匹配不是单词开头或结束的位置

  • “[^abc]” 匹配除了abc以外的任意字符

量词

贪婪(贪心) 如”*”字符
贪婪量词会首先匹配整个字符串,尝试匹配时,它会选定尽可能多的内容,如果失败则回退一个字符,然后再次尝试回退的过程就叫做回溯,它会每次回退一个字符,直到找到匹配的内容或者没有字符可以回退。相比下面两种贪婪量词对资源的消耗是最大的,

懒惰(勉强) 如 “?”
懒惰量词使用另一种方式匹配,它从目标的起始位置开始尝试匹配,每次检查一个字符,并寻找它要匹配的内容,如此循环直到字符结尾处。

占有 如”+”
占有量词会覆盖事个目标字符串,然后尝试寻找匹配内容 ,但它只尝试一次,不会回溯,就好比先抓一把石头,然后从石头中挑出黄金

  • “*”(贪婪) 重复零次或更多

        例如”aaaaaaaa” 匹配字符串中所有的a 正则: “a*” 会出到所有的字符”a”

  • “+”(懒惰) 重复一次或更多次

       例如”aaaaaaaa” 匹配字符串中所有的a 正则: “a+” 会取到字符中所有的a字符, “a+”与”a*”不同在于”+”至少是一次而”*” 可以是0次,

       稍后会与”?”字符结合来体现这种区别

  • “?”(占有) 重复零次或一次

       例如”aaaaaaaa” 匹配字符串中的a 正则 : “a?” 只会匹配一次,也就是结果只是单个字符a

  • “{n}” 重复n次

       例如从”aaaaaaaa” 匹配字符串的a 并重复3次 正则: “a{3}” 结果就是取到3个a字符 “aaa”;

  • “{n,m}” 重复n到m次

       例如正则 “a{3,4}” 将a重复匹配3次或者4次 所以供匹配的字符可以是三个”aaa”也可以是四个”aaaa” 正则都可以匹配到

  • “{n,}” 重复n次或更多次

      与{n,m}不同之处就在于匹配的次数将没有上限,但至少要重复n次 如 正则”a{3,}” a至少要重复3次

    把量词了解了之后之前匹配电话号码的正则现在就可以改得简单点了^0\d\d\d-\d\d\d\d\d\d\d "0\d+\d7 ”。

这样写还不够完美如果因为前面的区号没有做限定,以至于可以输入很多们,而通常只能是3位或者4位,现在再改一下 “^0\d{2,3}-\d{7}”如此一来区号部分就可以匹配3位或者4位的了
* “|”即竖线,称为模式选择符,表达或的意思
a|b,即表示出现a或b
* “()”模式端元
提取小括号里面的东西

懒惰限定符

  • “*?” 重复任意次,但尽可能少重复

       如 “acbacb” 正则 “a.*?b” 只会取到第一个”acb” 原本可以全部取到但加了限定符后,只会匹配尽可能少的字符 ,而”acbacb”最少字符的结果就是”acb”

  • “+?” 重复1次或更多次,但尽可能少重复

       与上面一样,只是至少要重复1次

  • “??” 重复0次或1次,但尽可能少重复

       如 “aaacb” 正则 “a.??b” 只会取到最后的三个字符”acb”

  • “{n,m}?” 重复n到m次,但尽可能少重复

如 “aaaaaaaa” 正则 “a{0,m}” 因为最少是0次所以取到结果为空

  • “{n,}?” 重复n次以上,但尽可能少重复

如 “aaaaaaa” 正则 “a{1,}” 最少是1次所以取到结果为 “a”

捕获分组

(这一段还不懂,以后再研究)

  先了解在正则中捕获分组的概念,其实就是一个括号内的内容 如 “(\d)\d” 而”(\d)” 这就是一个捕获分组,可以对捕获分组进行 后向引用 (如果后而有相同的内容则可以直接引用前面定义的捕获组,以简化表达式) 如(\d)\d\1 这里的”\1”就是对”(\d)”的后向引用

那捕获分组有什么用呢看个例子就知道了

如 “zery zery” 正则 \b(\w+)\b\s\1\b 所以这里的”\1”所捕获到的字符也是 与(\w+)一样的”zery”,为了让组名更有意义,组名是可以自定义名字的

“\b(?\w+)\b\s\k\b” 用”?”就可以自定义组名了而要后向引用组时要记得写成 “\k”;自定义组名后,捕获组中匹配到的值就会保存在定义的组名里

下面列出捕获分组常有的用法

“(exp)” 匹配exp,并捕获文本到自动命名的组里

“(?exp)” 匹配exp,并捕获文本到名称为name的组里

“(?:exp)” 匹配exp,不捕获匹配的文本,也不给此分组分配组号

以下为零宽断言

“(?=exp)” 匹配exp前面的位置

  如 “How are you doing” 正则”(?.+(?=ing))” 这里取ing前所有的字符,并定义了一个捕获分组名字为 “txt” 而”txt”这个组里的值为”How are you do”;

“(?<=exp)” 匹配exp后面的位置

  如 “How are you doing” 正则”(?(?<=How).+)” 这里取”How”之后所有的字符,并定义了一个捕获分组名字为 “txt” 而”txt”这个组里的值为” are you doing”;

“(?!exp)” 匹配后面跟的不是exp的位置

  如 “123abc” 正则 “\d{3}(?!\d)”匹配3位数字后非数字的结果

“(?

模式修正符

正则表达式手册

表达式全集
字符描述
\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。
^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。
$匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。
*匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。
+匹配前面的子表达式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。
?匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“does”或“does”中的“do”。?等价于{0,1}。
{n}n是一个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。
{n,}n是一个非负整数。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
{n,m}m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
?当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。
.匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“(.|\n)”的模式。
(pattern)匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用 0 9属性。要匹配圆括号字符,请使用“\(”或“\)”。
(?:pattern)匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。
(?=pattern)正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern)正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
(?<=pattern)反向肯定预查,与正向肯定预查类拟,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)反向否定预查,与正向否定预查类拟,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。
x|y匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”则匹配“zood”或“food”。
[xyz]字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”。
[^xyz]负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。
[a-z]字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z]负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
\b匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\B匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
\cx匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。
\d匹配一个数字字符。等价于[0-9]。
\D匹配一个非数字字符。等价于[^0-9]。
\f匹配一个换页符。等价于\x0c和\cL。
\n匹配一个换行符。等价于\x0a和\cJ。
\r匹配一个回车符。等价于\x0d和\cM。
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t匹配一个制表符。等价于\x09和\cI。
\v匹配一个垂直制表符。等价于\x0b和\cK。
\w匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。.
\num匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,“(.)\1”匹配两个连续的相同字符。
\n标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。
\nm标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。
\nml如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。
\un匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©)。


常用正则表达式
用户名/^[a-z0-9_-]{3,16}$/
密码/^[a-z0-9_-]{6,18}$/
十六进制值/^#?([a-f0-9]{6}|[a-f0-9]{3})$/
电子邮箱/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6}) //[az\d]+(\.[az\d]+)@([\daz]([\daz])?)+(\.1,2[az]+)+ /
URL/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
IP 地址/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/
/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/
HTML 标签/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/
删除代码\\注释(?<!http:|\S)//.*$
Unicode编码中的汉字范围/^[\u2E80-\u9FFF]+$/
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值