在Python开发爬虫过程中经常会遇到正则表达式,其中(.*?) 的使用概率较高,那么这个正则表达式到底什么意思呢?
“.*?” 表示非贪心算法,表示要精确的配对。
“.*”表示贪心算法,表示要尽可能多的匹配
“()” 表示要获取括弧之间的信息。
用一个例子来说明一下。
import re
a = 'xxIxxjshdxxlovexxsffaxxpythonxx'
infos = re.findall('xx(.*?)xx', a)
print(infos)
此时字符串的解析结果应该为:
xxIxx
jshd
xxlovexx
sffa
xxpythonxx
符合检索条件的为:
xxIxx
xxlovexx
xxpythonxx
由于只需要获取() 之间的数据,所以最终的结果为:
['I', 'love', 'python']
如果使用“.*”表达式,则反馈 去掉头尾xx 之间的全部数据。
['Ixxjshdxxlovexxsffaxxpython']