【Python 爬虫之旅3】用pq获取列表中的数据

最新推荐文章于 2023-04-20 06:25:03 发布

zxfhahaha

最新推荐文章于 2023-04-20 06:25:03 发布

阅读量4.6k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/zxfhahaha/article/details/81280504

版权

当我们成功获取到某网站的html页面后，就要找到我们想要的数据的位置并把所需数据保存下来。

第一步：用正则表达式定位

首先查看网页源代码，找到我们所需数据的列表，然后把有唯一性的包含住这个列表的字符串找到作为我们匹配的模式。

strpattern = r'(?<=<table width="100%" border="0" cellpadding="0" cellspacing="0" class="searchdiv">).+?(?=</table>)'
pt = re.compile(strpattern, re.S)
mch1 = re.search(pt, strhtml)

上面的strpattern是我列举的匹配模式，意思就是找到?<=后的字符串和?=后的字符串之间的字符，确定好模式我们对此模式进行编译，然后在我们得到的strhtml里查找符合此模式的字符即可，这样我们就得到了包含所需数据的html。

第二步：使用pq得到数据

    if mch1 != None:
        print(pq(mch1.group(0)<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zxfhahaha

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
【Python 爬虫之旅3】用pq获取列表中的数据

当我们成功获取到某网站的html页面后，就要找到我们想要的数据的位置并把所需数据保存下来。第一步：用正则表达式定位首先查看网页源代码，找到我们所需数据的列表，然后把有唯一性的包含住这个列表的字符串找到作为我们匹配的模式。strpattern = r'(?&lt;=&lt;table width="100%" border="0" cellpadding="0" cellspac...
复制链接

扫一扫