Python爬虫之XPath解析库

最新推荐文章于 2024-06-02 22:46:57 发布

戎笔

最新推荐文章于 2024-06-02 22:46:57 发布

阅读量713

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_43705135/article/details/127688056

版权

XPath学习

1.XPath简介

XPath，全称XML Path Language，即XML路径语言，拥有简单明了的路径选择表达式，提供有100个内建函数，实现对字符串、数值、时间的匹配以及节点、序列的处理。应用于在XML文档中查找信息的语言，适用于HTML文档的搜索。

2.XPath常用规则

表达式	功能
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

3.具体用法

通过Python的lxml库，利用XPath进行HTML解析。

（1）对HTML代码解析

from lxml import etree
#声明一段HTML文本
text ='''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inachive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
#调用HTML类进行初始化，构造解析对象
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

etree模块可以自动修正HTML文本，调用tostring()方法即可输出修正后的HTML代码，结果是bytes类型。利用decode()方法将其转成str类型。结果如下：

<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inachive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li

最低0.47元/天解锁文章

戎笔

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之XPath解析库

XPath，全称XML Path Language，即XML路径语言，拥有简单明了的路径选择表达式，提供有100个内建函数，实现对字符串、数值、时间的匹配以及节点、序列的处理。应用于在XML文档中查找信息的语言，适用于HTML文档的搜索。
复制链接

扫一扫