lxml提取数据

1. lxml的认识

在前面学习了xpath的语法,那么在代码中我们如何使用xpath呢,对应的我们需要lxml

安装方式:pip install lxml

2. lxml的使用

2.1 lxml模块的入门使用

  1. 导入lxml 的 etree 库 (导入没有提示不代表不能用)

    from lxml import etree

  2. 利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据

    html = etree.HTML(text)
    ret_list = html.xpath(“xpath字符串”)

3.把转化后的element对象转化为字符串,返回bytes类型结果 etree.tostring(element)

假设我们现有如下的html字符换,尝试对他进行操作

	<div> <ul> 
	<li class="item-1"><a href="link1.html">first item</a></li> 
	<li class="item-1"><a href="link2.html">second item</a></li> 
	<li class="item-inactive"><a href="link3.html">third item</a></li> 
	<li class="item-1"><a href="link4.html">fourth item</a></li> 
	<li
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值