【Python 爬虫之旅3】用pq获取列表中的数据

当我们成功获取到某网站的html页面后,就要找到我们想要的数据的位置并把所需数据保存下来。

第一步:用正则表达式定位

首先查看网页源代码,找到我们所需数据的列表,然后把有唯一性的包含住这个列表的字符串找到作为我们匹配的模式。

strpattern = r'(?<=<table width="100%" border="0" cellpadding="0" cellspacing="0" class="searchdiv">).+?(?=</table>)'
pt = re.compile(strpattern, re.S)
mch1 = re.search(pt, strhtml)

上面的strpattern是我列举的匹配模式,意思就是找到?<=后的字符串和?=后的字符串之间的字符,确定好模式我们对此模式进行编译,然后在我们得到的strhtml里查找符合此模式的字符即可,这样我们就得到了包含所需数据的html。

第二步:使用pq得到数据

    if mch1 != None:
        print(pq(mch1.group(0)<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值