目录
在当今的数据驱动时代,从各种数据源中提取有用的信息变得至关重要。其中,XML和HTML作为主流的数据源格式,常常出现在我们的数据提取任务中。这时,我们需要一种语言来定位和提取这些数据,XPath就是这种语言。
一、XPath简介
XPath,全称XML Path Language,是一种在XML文档中查找信息的语言。它用于在XML文档中通过元素和属性进行导航,因此也常用于HTML和相关的标记语言中。XPath基于轴、节点和表达式等概念,允许我们通过路径选择特定节点或节点集合。
二、XPath的语法
XPath的语法包含了一系列的轴、节点测试和谓词,可以组合在一起以选择特定的节点。以下是XPath的一些核心概念:
- 轴:轴用来表示节点间的关系,如子节点、父节点、前一个节点、后一个节点等。例如,“/”表示从根节点开始,“//”表示选择所有的节点。
- 节点测试:节点测试用于匹配特定类型的节点,如元素节点、属性节点等。例如,“element”表示匹配名为“element”的元素节点。
- 谓词:谓词用来进一步限制节点的选择,如根据属性值进行选择。例如,“[@attribute='value