正则re模块高级用法

search

需求:匹配出文章阅读的次数

#coding=utf-8

import re

 

ret = re.search(r"\d+", "阅读次数为 9999")

ret.group()

 

findall

需求:统计出python、c、c++相应文章阅读的次数

#coding=utf-8

import re

 

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")

print ret

运行结果:

sub 将匹配到的数据进行替换

需求:将匹配到的阅读次数加1

方法1:

#coding=utf-8

import re

 

ret = re.sub(r"\d+", '998', "python = 997")

print ret

运行结果:

方法2:

#coding=utf-8

import re

 

def add(temp):

strNum = temp.group()

num = int(strNum) + 1

return str(num)

 

ret = re.sub(r"\d+", add, "python = 997")

print ret

 

ret = re.sub(r"\d+", add, "python = 99")

print ret

运行结果:

split 根据匹配进行切割字符串,并返回一个列表

需求:切割字符串“info:xiaoZhang 33 shandong”

#coding=utf-8

import re

 

ret = re.split(r":| ","info:xiaoZhang 33 shandong")

print ret

运行结果:

python正则表达式贪婪和非贪婪模式

Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;

非贪婪则相反,总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。

>>> s="This is a number 234-235-22-423">>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)

>>> r.group(1)

'4-235-22-423'>>> r=re.match(".+?(\d+-\d+-\d+-\d+)",s)

>>> r.group(1)

'234-235-22-423'

>>>

正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式:

非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。

>>> re.match(r"aa(\d+)","aa2343ddd").group(1)

'2343'>>> re.match(r"aa(\d+?)","aa2343ddd").group(1)

'2'>>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1)

'2343'>>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)

'2343'

>>>

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值