python——re模块

很久没有编写爬虫程序,不过前不久又再次上手。对于文本数据获取指定信息,或者进行清洗,正则表达式都是一个强力的工具。它的使用场景也十分多样。借此回顾总结一下,python中的re模块的主要功能与示例。

compile

re.compile()可以对传入的字符串进行编译,来返回一个目标的匹配模式,从而提高正则的效率。主要参数:

pattern : 需要编译的字符串
flags : 修改匹配方式,包括以下可选:

re.S : 使.匹配包括换行在内的所有字符
re.I : 使匹配对大小写不敏感
re.U : 根据Unicode规则解析字符,主要用于对中文匹配

例子:

import re

text = '正则表达式(英语:Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。'
#  获取文本中被中文括号包含的内容
pattern = re.compile('((.*))',flags=re.U)
pattern.findall(text)

在这里插入图片描述
匹配内容以列表的形式返回
看一下flags的作用对比:

import re

text = '正则表达式(英语:Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。'
#小写英文字母至少出现一次的内容
pattern1 = re.compile('[a-z]+')
#无视大小写
pattern2 = re.compile('[a-z]+',flags=re.I)
print(pattern1.findall(text))
print(pattern2.findall(text))

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值