Python学习日志——爬虫(三)正则表达式主要函数方法

一、compile 函数

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。

语法结构:re.compile(pattern[, flags])

import re
pattern = re.compile(r'\d+')     # 用于匹配至少一个数字
m = pattern.match('one12twothree34four')    # 从头开始匹配,没有匹配成功就停止运行
print (m)   #None
m = pattern.match('one12twothree34four', 2, 10) # 从下标为2的位置,即'e'的位置开始匹配,没有匹配成功就停止运行
print(m)   # None
m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,匹配成功
print (m)    # 返回一个 Match 对象<_sre.SRE_Match object; span=(3, 5), match='12'>
print(m.group(0))   # 可省略 0'12'
print(m.start(0) )  # 可省略 03
print(m.end(0) )    # 可省略 05
print(m.span(0))    # 可省略 0(3, 5)

结果:

None
None
<_sre.SRE_Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)

 当匹配成功时,会返回一个match对象,其中:

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串。当要获得整个匹配的子串时,可直接使用 group()或 group(0);

start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;

end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;

span([group]) 方法返回 (start(group), end(group)) ,即子串在整个字符串中的起始位置和结束位置。

 

二、findall方法

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值