爬虫常用正则
爬虫经常用到的一些正则,这可以帮助我们更好地处理字符。
正则符
单字符
. : 除换行以外所有字符
[] :[aoe] [a-w] 匹配集合中任意一个字符
\d :数字 [0-9]
\D : 非数字
\w :数字、字母、下划线、中文
\W : 非\w
\s :所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]
\S : 非空白
数量修饰
* : 任意多次 >=0
+ : 至少1次 >=1
? : 可有可无 0次或者1次
{m} :固定m次 hello{3,}
{m,} :至少m次
{m,n} :m-n次
边界
$ : 以某某结尾
^ : 以某某开头
分组
(ab)
贪婪模式
.*
非贪婪惰性模式
.*?
案例题
re.findall 使用
1、re.findall 可以对多行进行匹配,并依据参数作出不同结果。
re.findall(取值,值,re.M)
- re.M :多行匹配
- re.S :单行匹配 如果分行则显示/n
- re.I : 忽略大小写
- re.sub(正则表达式, 替换内容, 字符串)
转自:https://www.cnblogs.com/xiangsikai/p/11251620.html