python爬虫之lxml

本文介绍了Python爬虫中lxml库的安装、基本使用方法,包括节点和属性的操作,文本解析以及如何利用CSS语法进行标签搜索。通过实例展示了lxml的强大功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装

pip install lxml
如有报错,具体安装教程请查看:http://Lxml.de/installation.html

简单使用
  • 节点与属性
from lxml import etree
#创建节点对象
root=etree.Element('p')
#添加子节点
sub1=etree.SunElement(root,'a')
#节点名
print(root.tag)
#节点对象的属性类似字典类型,可按字典进行操作
root.set('class','123')
root.get('class')
  • 文本操作
etree.tostring(root)`#返回节点内容
root.text#返回节点的文本信息,单一节点用tail()方法
root.xpath('string()')#过滤调标签,字符串形式返回所有文本信息
root.xpath('//text()')#已标签为间隔,列表形式返回所有信息,返回值携带标签信息getparent()方法可以返回信息所在节点对象,is_text(),is_tail()方法可以判断信息所在标签类型


文本解析
etree.fromstring()#解析字符串类型
etree.HTML()#解析HTML对象
etree.XML()#解析XML对象
etree.parse()#解析文件类型
标签搜索
root=etree.HTML('<a class="234"><span id="2">link</span></a>')
root.xpath()#返回一个标签对象的列表,并且xpath语法的相对路径和绝对路径。
root.find()#返回第一个匹配对象,并且xpath语法只能使用相对路径(以’.//’开头)
root.findall()#返回一个标签对象的列表,并且xpath语法只能使用相对路径(以’.//’开头)

可根据css语法搜索标签

pip install cssselect
eg:
root.ceeselect('.id')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值