提取网页信息
正则表达式:帮助你方便的检查一个字符串是否与某种模式匹配
3个常用函数
1.search
re.search---re.search扫描整个字符串并返回第一个成功的匹配
import re
str = 'pythonthonth'
# search
pat = 'th'
r1 = re.search(pat, str)
print(r1)
输出结果:
<re.Match object; span=(2, 4), match='th'>
2.match
re.match---从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none
import re
str = 'pythonthonth'
# match
pat1 = 'py'
r2 = re.match(pat1, str)
print(r2)
输出结果:
<re.Match object; span=(0, 2), match='py'>
3.findall
re.findall---全局匹配函数,把所有匹配到的都返回
import re
str = 'pythonthonth'
# findall
pat3 = 'th'
r3 = re.findall(pat3, str)
print(r3)
输出结果:
['th', 'th', 'th']