数据提取之 lxml

最新推荐文章于 2024-07-17 14:13:18 发布

在下平兄

最新推荐文章于 2024-07-17 14:13:18 发布

阅读量1.4k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_44494778/article/details/94441001

版权

本文详细介绍了lxml模块的使用，包括模块入门、html.xpath()的运用及进阶技巧。针对xpath数据提取时可能出现的问题，提出了先分组再提取的策略，以应对不规范的HTML数据和潜在的提取错误。

摘要由CSDN通过智能技术生成

重点

xpath数据提取时：先分组再提取

1.什么是lxml

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。
如果要在代码中使用xpath，就需要学习lxml模块

2.lxml模块的使用

2.1 lxml模块入门

1.导入lxml 的 etree 库（导入没有提示不代表不能用）

from lxml import etree

2.利用etree.HTML 将字符串转化为Element对象，Element对象具有xpath的方法，该方法返回结果为列表。() 中text能够接收bytse类型的数据和str类型的数据

html = etree.HTML(text)
ret_list = html.xpath("xpath字符串")	   # 返回列表

3.把转化后的element 对象转化为字符串，返回bytes类型结果 etree.tostring(element)
假设我们现有如下的html 字符串，尝试对他们进行操作：

from lxml import etree

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签
</ul>
</div>
'''

# 利用etree.HTML，将html字符串转化为element对象，该对象具有xpath方法
html = etree.HTML(text)
print(html)

# 把element对象转化为字符串
print(etree.tostring(html).decode())

输出：

<Element html at 0x15060f6f608>
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li

最低0.47元/天解锁文章

在下平兄

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据提取之 lxml

1.什么是lxmllxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。如果要在代码中使用xpath，就需要学习lxml模块2.lxml模块的使用2.1 lxml模块入门1.导入lxml 的 etree 库（导入没有提示不代表不能用）from lxml import etree2.利用etree.HTML 将字符串转化为Element对...
复制链接

扫一扫

专栏目录