Xpath的作用:
XPath是一门在XML文档中查找信息的语言。XML文档包括:HTML/XHTMLXML/XMLNamespaces
Xpath表达式:
XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath 来提取相应的数据。
提示:XML 是一种遵守 W3C 标椎的标记语言,类似于 HTML,但两者的设计目的是不同,XML 通常被用来传输和存储数据,而 HTML 常用来显示数据。
您可以将 Xpath 理解为在XML/HTML文档中检索、匹配元素节点的工具。
Xpath 使用路径表达式来选取XML/HTML文档中的节点或者节点集。Xpath 的功能十分强大,它除了提供了简洁的路径表达式外,还提供了100 多个内建函数,包括了处理字符串、数值、日期以及时间的函数。因此 Xpath 路径表达式几乎可以匹配所有的元素节点。
XPath的节点:
请看下面这个XML文档:
<?xmlversion="1.0"encoding="UTF-8"?>
<bookstore><book><titlelang="en">HarryPotter</title>
<author>JK.Rowling</author>
<year>2005</year>
<price>29.99</price>
</book></bookstore>
上面的XML文档中的节点例子:
<bookstore>(文档节点)
<author>JK.Rowling</author>
(元素节点)lang="en"(属性节点)
节点关系
父(Parent)
每个元素以及属性都有一个父。在下面的例子中,book元素是title、author、year以及price元素的父
<book><title>HarryPotter</title>
<