目录
1.是什么
Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则。
为什么使用:网页源代码本质上是一个超长的字符串,所以适合用正则表达式提取内容。
注意尤其要掌握正则编写的逻辑关系!
1.1 优缺点
优点:速度快,效率高,准确性高
缺点:新手上手难度比较大
1.2 元字符
正则语法:使用元字符进行排列组合匹配字符串
元字符:具有固定含义的特色符合
https://tool.oschina.net/regex/ 元字符测试网址 可以多去练习
1.2.1 常用元字符
注意:每个元字符默认只匹配一位字符串
量词:控制前面的元字符出现的次数
贪婪匹配和惰性匹配
2.正则表达式在python中使用 re模块
2.1 findall
findall:匹配字符串中所有的符合正则的内容
结果为:
2.2 finditer(经常使用)
finditer:匹配字符串中所有的内容[返回的是迭代器],从迭代器中拿到的内容需要.group()
结果为:
2.3 search
#search,找到一个结果就返回,返回的结果是match对象,拿数据需要.group()
结果为:
2.4 match
match从头开始匹配
结果为:
2.4.1 正确match使用
结果为:
2.5 预加载正则表达式
就是提前在程序中准备了正则
结果为:
另外可重复使用预加载正则
结果为: