学习爬虫第五天 xpath

魔力军

已于 2024-03-29 17:49:57 修改

阅读量189

点赞数

分类专栏： Python 文章标签： xml python

于 2020-01-17 15:46:40 首次发布

本文链接：https://blog.csdn.net/weixin_45550881/article/details/104019916

版权

40 篇文章 0 订阅

订阅专栏

1. Xpath

Xpath是⼀⻔在HTML/XML⽂档中查找信息的语⾔，可⽤来在HTML/XML⽂档中对元素和属性进⾏遍历

文档： xpath介绍

XML：

HTML：

概念： 每个XML的标签我们都称之为节点。
示例：

<book>
	<title>hello world</title>
	<author>juran</author>
	<year>2019</year>
<book>

定义： XPath使⽤路径表达式来选取XML⽂档中的接待或者节点集。这些路径表达式和我们在常规的电脑⽂件系统中看到的表达式⾮常相似。

表达式	描述
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑他们的位置
.	选取当前节点
…	选取当前节点的父节点
@	选取

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore ⼦元素的第⼀个book 元素。
/bookstore/book[last()]	选取属于 bookstore ⼦元素的最后⼀个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore ⼦元素的倒数第⼆个 book 元素。
/bookstore/book[position()< 3]	选取最前⾯的两个属于 bookstore 元素的⼦元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的title 元素。
//title[@lang=‘eng’]	选取所有 title 元素，且这些元素拥有值为eng和lang属性
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book元素，且其中的 price 元素的值须⼤于 35.00。
//*[contains(text(), “xx”)]	根据文本进行模糊匹配
//*[contains(@class, “xx”)]	根据class进行模糊匹配（class可根据需要选择其他）

XPath 通配符可⽤来选取未知的 XML 元素。

常见路径表达式，及表达式结果：

xpath的更多语法: 更多语法

运算符	参考	注释
and	//*[contains(text(),“xxx”) and contains(@class,“xxx”)]	判断所有的文本包含xxx,class属性包含xxx的元素
not()	//input[@name=‘identity’ and not(contains(@class,‘a’))]	表示匹配出name为identity并且class的值中不包含a的input节点
or	//*[@type=‘email’ or @name=‘your-name’]	判断所有元素中，如果出现type位email或者name为your-name的就返回节点

关注