最近学爬虫,需要先学习正则表达式
.号,匹配任意字符,换行符\n除外
*号,匹配前一个字符0次至无限次
?号,匹配前一个字符0次或者1次
.*号,贪心算法,匹配尽可能多(长)的,得到满足条件最长的
.*?号,飞贪心算法,匹配尽可能少,得到满足条件最短的
()号,内部作为返回数据
\d, 匹配纯数字
重要,常用,一定要记住:(.*?)
注意,一个字符串的正则输出结果,相对于字符串上的位置,不可能有重叠。
findall 匹配所有符合规律的内容,返回列表
search 匹配第一个符合规律的内容,返回正则表达式对象(what?)
sub 替换符合规律的内容,返回替换后的值
re.S 可以跳过换行符