爬虫-xpath-基本原理

最新推荐文章于 2023-05-07 00:16:29 发布

薄荷杂学

最新推荐文章于 2023-05-07 00:16:29 发布

阅读量619

点赞数

分类专栏： # 爬虫基础知识文章标签： python 爬虫 xpath

本文链接：https://blog.csdn.net/weixin_43825323/article/details/115602641

版权

XPath 是一种在 XML 和 HTML 文档中查找信息的语言。本文介绍了 XPath 的基本原理，包括实例化 etree 对象、使用 XPath 表达式进行标签定位和内容捕获。讲解了属性定位、层级索引定位、逻辑运算、模糊匹配等常用规则，并通过案例展示了如何运用 XPath 运算符、按序选择和节点轴选择。最后提供了XPath学习资源和参考资料。

摘要由CSDN通过智能技术生成

前言

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用 XPath 来选择。

使用之前，首先要确保安装好 lxml 库

pip3 install lxml

⭐1.XPath 常用规则

表　达　式	描　　述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
…	选取当前节点的父节点
@	选取属性
*	所有节点返回形式是一个列表,每个元素是Element类型

方法	描述
/text()	获取文本内容，返回的是列表 text 方法获取节点中的文本
contains()函数	属性多值匹配某些节点的某个属性可能有多个值 contains 方法，第一个参数传入属性名称，第二个参数传入属性值 ’//li[contains(@class, “li”)]/a/text()' 此种方式在某个节点的某个属性有多个值时经常用到，如某个节点的 class 属性通常有多个。
and	根据多个属性确定一个节点，这时就需要同时匹配多个属性。
按序选择	按序选择有时候，我们在选择的时候某些属性可能同时匹配了多个节点，但是只想要其中的某个节点，如第二个节点或者最后一个节点。利用中括号传入索引的方法获取特定次序的节点序号是以 1 开头的
节点轴选择	节点轴选择——XPath提供了很多节点轴选择方法，包括获取子元素、兄弟元素、父元素、祖先元素

2.xpth解析原理：

1）实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。

from lxml import etree

tree = etree.parse('filePath', etree.HTMLParser()) #将本地的html文档中的数据加载到该对象中；
tree = etree.HTML('page_text') #将互联网上获取的页面源码加载到该对象中;

tree.xpath('xpath表达式')

2）调用etree对象中的xpth方法结合xpth表达式实现标签的定位和内容的捕获。

一些常用的：

属性定位：

#找到class属性值为song的div标签
//div[@class=“song”]

层级&索引定位：

#找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
//div[@class=“tang”]/ul/li[2]/a

逻辑运算：

#找到href属性值为空且class属性值为du的a标签
//a[@href=”" and @class=“du”]

模糊匹配：

//div[contains(@class, “ng”)]
//div[starts-with(@class, “ta”)]

取文本：

/表示获取某个标签下的文本内容
//表示获取某个标签下的文本内容和所有子标签下的文本内容
//div[@class=“song”]/p[1]/text()
//div[@class=“tang”]//text()

取属性@：

//div[@class=“tang”]//li[2]/a/@href

3.案例

#先导入lxml库的etree模块
from lxml import etree
#声明了一段HTML文本
text = '''
<div>
    <ul>
       <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
</div>
'''

#调用HTML类进行初始化，构造一个XPath解析对象
#HTML文本中的最后一个li节点是没有闭合的，但是etree模块可以自动修正HTML文本
html = etree.HTML(text)
result1 = etree.tostring(html) #tostring()方法输出修正后的HTML代码，结果是bytes类型
#print(result.decode('utf-8')) #利用decode()方法将其转成str类型
#可以看到，经过处理之后，li 节点标签被补全，并且还自动添加了 body、html 节点。
"""
<html><body><div>
    <ul>
       <li class="item-0"><a href&

最低0.47元/天解锁文章

薄荷杂学

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫-xpath-基本原理

前言XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用 XPath 来选择。使用之前，首先要确保安装好 lxml 库pip3 install lxml⭐1.X
复制链接

扫一扫

专栏目录