python爬虫之正则表达式的运用

最新推荐文章于 2022-09-15 00:18:45 发布

orangecat_win

最新推荐文章于 2022-09-15 00:18:45 发布

阅读量156

点赞数

分类专栏：爬虫操作集合文章标签： python 正则表达式

本文链接：https://blog.csdn.net/weixin_44965308/article/details/111088444

版权

爬虫操作集合专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一.什么是正则表达式?

通俗的理解就是对于一个目标串，我们通过正则表达式制定的一些规则和用法可以对这个目标串进行子串的模式匹配从而获得我们想要的数据，正则表达式能高效灵活的提取数据

二.使用正则表达式

A.库文件

python的标准库当中re库包含了正则表达式的用法
我们只需要调用即可

import re

B.常用的函数

1.search函数

若能找到目标串里面符合要求的元素，返回这一个元素的值
可以通过group函数来查看这一个值
若不能找到目标串里面符合要求的元素，则返回None

import re
str="hhhhhiiiii"
ans1=re.search("hh",str)
ans1.group()
#结果为hh

2.findall函数

找到目标串里面符合要求的所有元素并将这些元素制作成一个列表返回，我们可以通过对这个列表进行操作来查看正则表达式查找的值

import re
str="hhhhhiiiiihhh"
ans1=re.findall("hh",str)
print(ans1)
#结果:['hh', 'hh', 'hh']

关于这两个函数在后序还会讲到，这里先介绍一下

C.常用的使用规则

我们既然说了正则表达式是我们约定子字符串模式匹配的一种规则，那么下面我就来给大家了解一下这个使用的规则

1.精准匹配

单字符串的精准匹配

#这里只精准匹配am这一个子字符串
import re
str="i am orangecat-nan"
ans1=re.search("am",str)
ans1.group()
#结果:am

多字符串的精准匹配

#这里精准匹配am或者i或者nan这三个子字符串，只要匹配到任何一个都算匹配成功，并且返回第一个匹配到的对象
import re
str="i am orangecat-nan"
ans1=re.search("am|i|nan",str)
ans1.group()
#结果:i

2.模糊匹配

精准匹配的例子毕竟是少数，更多的话还是对于一段很长的文本进行模糊匹配，比如提取出文本里面所有时间数字，所有作者后面的名字等等，这里的话就需要使用到模糊匹配

匹配任意的单个字符

#匹配任意的单个字符可以使用.来表示
#当然如果要匹配到.那么我们可以来使用转义字符\来表示
import re
str1="abcdefg"
ans1=re.search(".",str1)
ans1.group()
#结果为:a
ans1=re.search("..",str1)
ans1.group()
#结果为:ab
str1="..ab"
ans1=re.search("\.\.",str1)
ans1.group()
#结果为:..

匹配限定的单个字符

#使用括号可以表示匹配到里面字符集中的任意一个都算成功匹配
import re
str="iamorangecat"
ans1=re.search("[bc]",str)
ans1.group()
#结果:c
ans1=re.search("[bc]",str)
ans1.group()
#结果:c
ans1=re.search("[bc][ba]",str)
ans1.group()
#结果:ca
ans1=re.search("[bc][b]",str)
ans1.group()
#结果:None 没有这样连续的两个字符在目标串中

横向模糊匹配

#大括号里面表示量词
#对b来讲表示至少2个b最多5个b
import re
str= "abc abbc abbbc abbbbc abbbbbc abbbbbbc"
result = re.findall('ab{2,5}c',str)
print(result)
#结果：['abbc', 'abbbc', 'abbbbc', 'abbbbbc']

横向模糊匹配常见的量词组

#{m,} 表示至少出现m次。
#{m} 等价于`{m,m}`，表示出现m次。
#? 等价于`{0,1}`，表示出现或者不出现。记忆方式：问号的意思表示，有吗？
#+ 等价于{1,}，表示出现至少一次。记忆方式：加号是追加的意思，得先有一个，然后才考虑追加。
#* 等价于`{0,}`，表示出现任意次，有可能不出现。记忆方式：看看天上的星星，可能一颗没有，可能零散有几颗，可能数也数不过来。
import re
str= "b ab aab aaab aaaab aaaaab"
result = re.findall('a{3,}b',str)
print(result)
#结果:['aaab', 'aaaab', 'aaaaab']
result = re.findall('a{3}b',str)
print(result)
#结果:['aaab', 'aaab', 'aaab']
result = re.findall('a?b',str)
print(result)
#结果:['b', 'ab', 'ab', 'ab', 'ab', 'ab']
result = re.findall('a+b',str)
print(result)
#结果:['ab', 'aab', 'aaab', 'aaaab', 'aaaaab']
result = re.findall('a*b',str)
print(result)
#结果:['b', 'ab', 'aab', 'aaab', 'aaaab', 'aaaaab']

纵向模糊匹配

#和上面匹配限定的单字符一样，这里表示是匹配到数字1,2或者3
import re
str= "a0b a1b a2b a3b a4b"
result = re.findall('a[1-3]b',str)
print(result)
#结果为：['a1b', 'a2b', 'a3b']

纵向模糊匹配常见字符组

#[0-9]的意思表示0、1、2、3、4、5、6、7、8、9这十个数字
#[a-z]的意思表示26个英文小写字母
#[^abc]表示非a、b、c三个字符
#\d就是`[0-9]`。表示是一位数字。记忆方式：其英文是digit（数字）
#\w就是`[0-9a-zA-Z_]`。表示数字、大小写字母和下划线。记忆方式：w是word的简写，也称单词字符
#\D就是`[^0-9]`。表示除数字外的任意字符

贪婪匹配和非贪婪匹配

#默认情况是贪婪匹配，就是按照匹配的最大原则去匹配更多
import re
str= "123 1234 12345 123456"
result = re.findall('\d{2,5}',str)#匹配数字的最少两个最多五个
print(result)
#结果:['123', '1234', '12345', '12345']

#非贪婪匹配：匹配到就行，尽可能少匹配
#用法：在量词后面加上"?"号
import re
str= "123 1234 12345 123456"
result = re.findall('\d{2,5}?',str)#只要匹配到数字数量为2的就行
print(result)
#结果:['12', '12', '34', '12', '34', '12', '34', '56']

多选分支

import re
str= "123 1b3 1B3 1C3 1d3"
result = re.findall('1[2|b|B]3',str)
print(result)
#结果:["123","1b3","1B3"]

#注意的是多选分支匹配是惰性的
import re
str= "我爱北京 我爱北京 我爱上海"
result = re.findall('我爱|我爱北京',str)
print(result)
#结果:['我爱', '我爱', '我爱']
result = re.findall('我爱北京|我爱',str)
print(result)
#结果:['我爱北京', '我爱北京', '我爱']
result = re.search('我爱|我爱北京',str)
print(result)
#结果:我爱
result = re.search('我爱北京|我爱',str)
print(result)
#结果:我爱北京

orangecat_win

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之正则表达式的运用

一.什么是正则表达式?通俗的理解就是对于一个目标串，我们通过正则表达式制定的一些规则和用法可以对这个目标串进行子串的模式匹配从而获得我们想要的数据，正则表达式能高效灵活的提取数据二.使用正则表达式A.库文件python的标准库当中re库包含了正则表达式的用法我们只需要调用即可import reB.常用的函数1.search函数若能找到目标串里面符合要求的元素，返回这一个元素的值可以通过group函数来查看这一个值若不能找到目标串里面符合要求的元素，则返回Noneimport re
复制链接

扫一扫