数据提取之 lxml

本文详细介绍了lxml模块的使用,包括模块入门、html.xpath()的运用及进阶技巧。针对xpath数据提取时可能出现的问题,提出了先分组再提取的策略,以应对不规范的HTML数据和潜在的提取错误。
摘要由CSDN通过智能技术生成

重点

xpath数据提取时 :先分组 再提取

1.什么是lxml

  • lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
  • 如果要在代码中使用xpath,就需要学习lxml模块

2.lxml模块的使用

2.1 lxml模块入门

1.导入lxml 的 etree 库(导入没有提示不代表不能用)

from lxml import etree

2.利用etree.HTML 将字符串转化为Element对象,Element对象具有xpath的方法,该方法返回结果为列表。() 中text能够接收bytse类型的数据和str类型的数据

html = etree.HTML(text)
ret_list = html.xpath("xpath字符串")	   # 返回列表

3.把转化后的element 对象转化为字符串,返回bytes类型结果 etree.tostring(element)
假设我们现有如下的html 字符串,尝试对他们进行操作:

from lxml import etree

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
</ul>
</div>
'''

# 利用etree.HTML,将html字符串转化为element对象,该对象具有xpath方法
html = etree.HTML(text)
print(html)

# 把element对象转化为字符串
print(etree.tostring(html).decode())

输出:

<Element html at 0x15060f6f608>
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li 
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值