Python中的正则表达式

在python中使用正则表达式

在使用python制作爬虫之前,我们必须要对python的正则表达式有一定的了解,在python中使用正则表示式要导入re

语法

\d匹配数字1-9
\w匹配字符
[ ]匹配集合里面的字符
+匹配前面出现的正则表达式1次或多次
.表示匹配任意一个字符,除换行符除外, x.匹配xy23中的xy,若是x..则匹配出xy2
*表示匹配0个或多个其前面的字符,x*匹配xxxy123中的xxx
?表示匹配0个或1个其前面的字符,x?匹配xxxy123中的x
.*是贪婪匹配,x.*x它会匹配xhelloxxworldx的整个字符
.*?是最小匹配,x.*?x 它会匹配xhelloxxworldx中的xhellox
python中正则表示式的分组,在python中正则表达式的分组使用( )表示:

函数

search(pattern, string, flags=0)函数匹配字符串符合正则表达式的第一个位置
re.findall(pattern, string, flags=0)函数匹配字符串中所以符合正则表达式的字符串
更多的内容请上官网re表达式库查询

# -*- coding:utf-8 -*-
import re
code = '123xxhelloxx567xxworldxx89'
f = re.search('xx(.*?)xx',code).group(1)
print(f)
#输出答案为hello,若使.group(0)输出的是所匹配的字符串xxhelloxx
#若是使用贪婪匹配的,‘(.*)’上述输出的结果为helloxx567xxworld,若是.group(0)输出的则是xxhelloxx566xxworldxx

re.S表示.可以匹配任何的字符,包括换行

# -*- coding:utf-8 -*-
import re
s = '''123xxhello
xx567xxworldxx89'''
d = re.findall('xx(.*?)xx',s)
print(d)
#输出的结果为并不是`hello`和`world`而是`567`,因为`.`可以匹配任意字符,但不可以匹配换行

#为了要输出正确的结果,要传入改函数的默认参数`re.S`
text = re.findall('xx(.x?)xx',s,re.S)
#利用re.findall()函数返回的是一个list集合而不是Match,所以不可以使用.grout()来读取分组
for each in d:
    print(each)
#输出结果为hello和world
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值