XPath
- XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。最初是用来搜寻XML文档的,但同样适用于HTML文档的搜索。所以在做爬虫时完全可以使用XPath做相应的信息抽取。
(1)XPath概览
- XPath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有想要定位的节点都可以用XPath来选择。
- 官方文档https://www.w3.org/TR/xpath/
(2)XPath常用规则
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取子孙节点 |
. | 选取当前节点 |
. . | 选取当前节点的父节点 |
@ | 选取属性 |
这里列出了XPath的常用匹配规则,示例如下:
//title[@lang='eng']
这是一个XPath规则,代表的是选择所有名称为title,同时属性lang的值为eng的节点,后面会通过Python的lxml库,利用XPath进行HTML的解析。
(3)安装
windows -> python3环境下: pip install lxml
linux环境下: pip3 install lxml