解析工具：xpath

最新推荐文章于 2023-12-24 19:06:07 发布

唯妮

最新推荐文章于 2023-12-24 19:06:07 发布

阅读量241

点赞数

分类专栏： python 文章标签： xpath python

本文链接：https://blog.csdn.net/weixin_43868038/article/details/103667664

版权

7 篇文章 1 订阅

订阅专栏

使用xpath

Xpath，全称是XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。因此xpath常在爬虫中被用到。

在这里插入图片描述

例如：

//*[@id=“test”]	选取所有id为test的节点
//div[@class=“test”]	选取所有class为test的div节点
//div[@name=“city” and @id=“t”]	选取所有name为city并且id为t的div节点
//div[@name=“city” or @id=“t”]	选取所有name为city或者id为t的div节点

: 如<div class="t1 t2 t3"><p>123</p></div>

//div[contains(@class,“t1”)]	选取所有class包含t1的div节点
//div[contains(@class,“t1”) and contains(@class,“t2”)]	选取所有class包含t1和t2的div节点

//a[starts-with(@rel, “nofo”)]	选取所有rel属性以nofo开头的a元素

//div[@id=“t1”]/a[last()]	选取id为t1的div节点下的最后一个a节点

//p[text()=“cont”]	选取所有text文本内容为cont的p节点
//div[contains(text(), “cont2”)]	选取所有text文本内容包含cont2的div节点

: 如<div class="t1 t2 t3"><p>123</p><p>456</p>789</div>

//div/text()	选取所有div下的文本（一级文本）—— 789
//div/p[1]/text()	选取所有div下的第一个p节点下的文本（一级文本）—— 123
//div//text()	选取所有div下的所有文本（[123,456,789]）

//div/p`\|`//tr/em	选取所有div下的p节点和所有tr下的em节点
//div`\|`//tr/em	选取所有div节点和所有tr下的em节点

: 如<div class="t1 t2 t3"><p>123</p><p>456</p></div>

//div/p[1]	选取所有div下的第一个p节点
//div/p[2]	选取所有div下的第二个p节点

在这里插入图片描述

新手司机上线ing…
如有写的不对的地方，还望指出来！

关注