当我们成功获取到某网站的html页面后,就要找到我们想要的数据的位置并把所需数据保存下来。
第一步:用正则表达式定位
首先查看网页源代码,找到我们所需数据的列表,然后把有唯一性的包含住这个列表的字符串找到作为我们匹配的模式。
strpattern = r'(?<=<table width="100%" border="0" cellpadding="0" cellspacing="0" class="searchdiv">).+?(?=</table>)'
pt = re.compile(strpattern, re.S)
mch1 = re.search(pt, strhtml)
上面的strpattern是我列举的匹配模式,意思就是找到?<=后的字符串和?=后的字符串之间的字符,确定好模式我们对此模式进行编译,然后在我们得到的strhtml里查找符合此模式的字符即可,这样我们就得到了包含所需数据的html。
第二步:使用pq得到数据
if mch1 != None:
print(pq(mch1.group(0)<