Xpath详解

weixin_51231433

于 2024-09-22 20:27:22 发布

阅读量898

点赞数 22

文章标签： java 前端 javascript 爬虫

本文链接：https://blog.csdn.net/weixin_51231433/article/details/142440697

版权

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供超过 100 个内置函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有想要定位的节点都可以用 XPath 来选取。XPath详细使用教程见：XPath 教程。

1.Xpath语法介绍

1.1. 路径常用规则

表达式	描述	实例
nodename	选取此节点的所有子节点	xpath('//div')	选取了div节点的所有子节点
/	从根节点选取	xpath('/div')	从根节点上选取div节点
//	选取所有当前节点，不考虑位置	xpath('//div')	选取所有的div节点
.	选取当前节点	xpath('./div')	选取当前节点下的div节点
..	选取当前节点的父节点	xpath('..')	回到上一个节点
@	选取属性	xpath（'//@calss'）	选取所有的class属性

1.2. 谓语规则

谓语被嵌在方括号内，用来查找某个特定的节点或包含某个指定的值节点。

表达式	结果
xpath('/body/div[1]')	选取body下的第一个div节点
xpath('/body/div[last()]')	选取body下最后一个div节点
xpath('/body/div[last()-1]')	选取body下倒数第二个div节点
xpath('/body/div[positon()<3]')	选取body下前两个div节点
xpath('/body/div[@class]')	选取body下带有class属性的div节点
xpath('/body/div[@class="main"]')	选取body下class属性为main的div节点
xpath('/body/div[price>35.00]')	选取body下price元素值大于35的div节点

1.3. 通配符

通配符来选取未知的XML元素。

表达式	结果
xpath（'/div/*'）	选取div下的所有子节点
xpath('/div[@*]')	选取所有带属性的div节点

1.4. 取多个路径

使用“|”运算符可以选取多个路径。

表达式	结果
xpath('//div\|//table')	选取所有的div和table节点

1.5. 功能函数

使用功能函数能够更好进行模糊搜索。

函数	用法	解释
starts-with	xpath('//div[starts-with(@id,"ma")]')	选取id值以ma开头的div节点
contains	xpath('//div[contains(@id,"ma")]')	选取id值包含ma的div节点
and	xpath('//div[contains(@id,"ma") and contains(@id,"in")]')	选取id值包含ma和in的div节点
text()	xpath('//div[contains(text(),"ma")]')	选取节点文本包含ma的div节点

2. XPath定位

XPath定位，相较于id、name等其他定位方法，定位方式多样，使用灵活。

2.1. 绝对路径定位

绝对路径定位不推荐，可以通过开发者页面，右键copy - copy full xpath直接获取。示例如下。

/html/body/div[4]/div/div[2]/div/div[1]

2.2. 相对路径定位

相对路径定位，以//开头，后面跟标签名。相对路径定位是最常用的定位方式，一般结合以下其他定位方式，共同组成元素的xpath路径。示例如下。

//input  匹配所有input元素
//div/input  匹配所有父级为div的input元素
//a/..  匹配子级中有a的所有元素（即，匹配所有a元素的父级）

2.3. 索引定位

索引路径定位，在[]中填写索引数值，第一个元素的索引值为1。

//div[2]  匹配所有在兄弟级中排第2的div元素（即，任意元素下的第2个div元素）

2.4. 属性名称定位

//input[@placeholder]  匹配所有包含placeholder属性的input元素

2.5. 属性值定位

//input[@type='text']   
匹配所有type属性为text的input元素

//input[@type='text'] [@placeholder='请输入名称']  
匹配所有type属性为text，且placeholder属性为“请输入名称”的input元素

//input[@type='text' and @placeholder='请输入名称']  
匹配所有type属性为text，且placeholder属性为“请输入名称”的input元素

//input[@type='text' or @placeholder='请输入名称']  
匹配所有type属性为text，或placeholder属性为“请输入名称”的input元素

2.6. 属性值模糊定位


//input[start-with(@id, 'pre')]  匹配所有id属性以pre开头的input元素
//input[ends-with(@id, ’name’)]  匹配所有id属性以name结尾的input元素
//input[contains-with(@id, 'user')]  匹配所有id属性包含user的input元素
//input[@*='username']  匹配所有任意属性值为username的input元素

2.7. 函数定位

//span[text()='删除']  匹配所有文本为“删除”的span元素
//div/input[last()]  匹配所有div子级的最后一个input元素

2.8. 轴定位

轴定位可以简化定位语句、扩大定位范围。常用的xpath轴一般有ancestor(当前节点所有先辈)、descendant(当前节点所有后代元素)。

//div[contains(@class, 'el-table__body-wrapper')]/descendant::span[text()='NO.1234’]
先根据contains规则匹配div元素，在其后代元素中匹配对应规则的span元素

2.9. XPath编写原则

在实际使用中，几乎所有元素都可以通过不同的方式，编写xpath路径定位到。为减小页面变动对元素定位的影响，应遵守以下规则：

1. 更多地使用相对路径定位

2. 尽量避免使用数字索引

3. 锚元素(“//”后的第一个元素)尽量使用变化少、距离目标元素近的元素

2.10. XPath定位结果验证

XPath定位语句编写是否正确，可在开发者工具中进行验证。

浏览器按F12打开开发者工具，进入console模块，输入$x()，在括号中填写定位语句，回车执行即可，如有符合的元素会显示。

3.XPath解析

爬虫抓取到的网页源码虽然是HTML文档，但是其实是字符串类型的数据。而xpath解析的是html或者lxml文档中的标签元素对象，不是字符串。我们就需要将抓到的字符串类型源码转换为html或者lxml文档中的标签元素对象，然后就可以正常使用xpath路径表达式进行解析查找。如何将字符串内容转换成标签元素对象，要使用 lxml 库里面的 etree 模块中的 HTML() 方法，语法格式如下：

from lxml import etree  # 导入 lxml 库中的 etree 模块
变量名 = etree.HTML(网页源码)  # 使用 etree 模块的 HTML() 方法，括号中就是爬虫拿到的字符串类型的网页源码，将转换后的标签对象用变量保存

从本地文件导入解析：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())

html.xpath('//*div')

从response导入解析

import requests
from lxml import etree

url = 'www.baidu.com'
response = requests.get(url).content.decode()
print(type(response))  # 字符串类型

html = etree.HTML(response)
print(type(html)) # 标签对象

html.xpath('//*div')