概念:
正则表达式(规则表达式:Regular Expression),通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。
python提取字符串方式示例:
常规情况下要获取上面所示简单代码中的get these chars,以所学python知识,如下:
此时就可获取字符串:get these chars
用这种方法的确能够获取正确的字符串,但这只是提取万千代码中的一个,若要提取大量内容,恐怕烦不胜烦。而正则表达式可以良好的解决这个问题。
用正则表达式获取内容简单示例
此时获取的内容如下:
- 没错,正则表达式就是这种结构:
正则表[达式(元字符)与其所匹配的字符或含义
特殊正则表达形式
?<= : 所匹配的内容在(?<=)之后
?= : 所匹配内容在 (?=)之前
正则实例解析
解释regular_char = r'(?<=<div>).+?(?=</div>)'
r: 这个大家都应该知道,r是防止‘\’字符最后面内容转义,保持字符串原始值
?<=: 代表所要匹配的内容在‘?<=’之后
?=: 代表所要匹配的内容在‘?=’之前
.: 可以代表任何一个字符(包括它本身)
+: 将前面一个字符或一个子表达式重复一遍或者多遍
?: 避免正则表达式的贪婪(只匹配一个)