参考资料:Python网络爬虫与信息提取(北京理工大学慕课)
Re库也叫正则表达式库,是Python的标准库,主要用于字符串匹配。
调用方式:
import re
正则表达式的表示类型:
-
raw string 类型(原生字符串类型)
-
string 类型,更繁琐
所有在正则表达式中出现斜杠的地方,如果用 string 类型表示,都要增加额外的斜杠。
所以,当正则表达式包含转义符时,建议使用 raw string。
Re库主要功能函数:
函数 | 说明 |
---|---|
re.search() | 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象 |
re.match() | 从一个字符串的开始位置起匹配正则表达式,返回match对象 |
re.findall() | 搜索字符串,以列表类型返回全部能匹配的子串 |
re.split() | 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型 |
re.finditer | 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象 |
re.sub() | 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串 |
re.search函数:
re.sea