XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:101677771
所以在做爬虫时,我们完全可以使用XPath来做相应的信息抽取。本节中,我们就来介绍XPath的基本用法。
1. XPath概览
XPath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点,都可以用XPath来选择。
XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/。
2. XPath常用规则
表4-1列举了XPath的几个常用规则。
表4-1 XPath常用规则
表达式 |
描述 |
---|---|
|
选取此节点的所有子节点 |
|
从当前节点选取直接子节点 |
|
从当前节点选取子孙节点 |
|
选取当前节点 |
|
选取当前节点的父节点 |
|
选取属性 |
这里列出了XPath的常用匹配规则,示例如下:
1 |
//title[@lang='eng'] |
这就是一个XPath规则,它代表选择所有名称为title
,同时属性lang
的值为eng
的节点。
后面会通过Python的lxml库,利用XPath进行HTML的解析。
3. 准备工作
使用之前,首先要确保安装好lxml库,若没有安装,可以参考第1章的安装过程。
4. 实例引入
现在通过实例来感受一下使用XPath来对网页进行解析的过程,相关代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
from lxml import etree text = ''' <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> ''' html = etree.HTML(text) result = etree.tostring(html) print(result.decode('utf-8')) |
这里首先导入lxml库的etree模块,然后声明了一段HTML文本,调用HTML类进行初始化,这样就成功构造了一个XPath解析对象。这里需要注意的是,HTML文本中的最后一个li
节点是没有闭合的,但是etree模块可以自动修正HTML文本。
这里我们调用tostring()
方法即可输出修正后的HTML代码,但是结果是bytes
类型。这里利用decode()
方法将其转成str
类型,结果如下:
1 2 3 4 5 6 7 8 9 10 |
<html><body><div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </li></ul> </div> </body></html> |
可以看到,经过处理之后,li
节点标签被补全,并且还自动添加了body
、html
节点。
另外,也可以直接读取文本文件进行解析,示例如下:
1 2 3 4 5 |
from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser()) result = etree.tostring(html) print(result.decode('utf-8')) |
其中test.html的内容就是上面例子中的HTML代码,内容如下:
1 2 3 4 5 6 7 8 9 |
<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> |
这次的输出结果略有不同,多了一个DOCTYPE
的声明,不过对解析无任何影响,结果如下:
1 2 3 4 5 6 7 8 9 10 |
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd"> <html><body><div> <ul> <li class="item-0"><a href="link1.html">firs |