Python xpath 详解一（非网络文章复制粘贴）

最新推荐文章于 2023-12-11 09:11:05 发布

aolixiaox

最新推荐文章于 2023-12-11 09:11:05 发布

阅读量681

点赞数

分类专栏： python-scrapy

本文链接：https://blog.csdn.net/wosind/article/details/96825571

版权

python-scrapy 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

之前有看到好多关于xpath用法的文章，大多都是复制粘贴，一些生硬的表格，生硬的例句，对初学者非常不友好。整理这篇文章，旨在帮助更多的初学者能快速上手。

示例链接：http://auto.sohu.com/

一、xpath 路径

下面以获取主菜单的按钮文本，那么路径关系如图：

在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190722082910853.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dvc2luZA==,size_16,color_FFFFFF,t_70

那么要提取按钮文本，最完整的路径，也叫绝对路径，也就是图中蓝色路径：

response.xpath('/html/body/div[@class="header"]/div[@class="area"]/div[@class="head-nav left"]/ul/li/a/text()')

在这里插入图片描述
这里的[@class=“header”] 可以理解为，对支点的一个标识，更加准确的定位。
如果我们只是写

response.xpath('/html/body/div/div/div/ul/li/a/text()')

提取结果就多了很多。

在这里插入图片描述

二、实际爬虫很少使用这种绝对路径的书写，而是使用 “//” 进行路径匹配，它主要依靠元素ID、class的等属性值来定位路径，

response.xpath('//div[@class="head-nav left"]/ul/li/a/text()')

这里就通过div的class属性值及相对的路径关系，就可以提取到菜单文本了。
在这里插入图片描述

该方式通常通过，父支点的特征、父支点的父支点的特征…,来防止提取到非目标数据。

三、“[]”的模糊匹配,比如图中这样的几个类似支点，当然可以写5个xpath路径。
在这里插入图片描述
更好的方法是使用 contanins 模糊匹配：

response.xpath('//div[contains(@id,"tms_t_")]')

aolixiaox

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python xpath 详解一（非网络文章复制粘贴）

之前有看到好多关于xpath用法的文章，大多都是复制粘贴，一些生硬的表格，生硬的例句，对初学者非常不友好。整理这篇文章，旨在帮助更多的初学者能快速上手。示例链接：http://db.auto.sohu.com/yiqiaudi/4414一、xpath 路径“选品牌” 下拉框，对应的代码片段，和路径关系如图：那么要提取下拉框选项，...
复制链接

扫一扫

专栏目录