xpath应用之lxml模块使用

lxml 是 一个 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数
据。

lxml 和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,
我们可以利用上篇文件的 XPath 语法,来快速的定位特定元素以及节点信息。

lxml python 官方文档

安装lxml模块:

pip install lxml(或通过 wheel 方式安装)
fromstring():解析字符串
HTML():解析HTML对象
XML():解析XML对象
parse():解析文件类型对象

lxml可以通过etree.HTML()来加载一个HTML页面(最常用方法)


from lxml import etree
import  requests
 
url='http://tool.chinaz.com/'
resp=requests.get(url,timeout=50).content.decode('utf-8')
# 加载HTML页面(转换为xpath语法可识别的xml结构)
tree=etree.HTML(resp)
#打印全部a标签
hrefs=tree.xpath('//a')
for href in hrefs:
    print href.get('href'),'\t',href.text
一、 初步使用

1、我们利用它来解析 HTML 代码,简单示例:
在这里插入图片描述

输出结果:
在这里插入图片描述

lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标
签。

2 、 文件读取:
除了直接读取字符串,lxml 还支持从文件里读取内容。我们新建一个 hello.html 文件,
再利用 etree.parse() 方法来读取文件。
在这里插入图片描述
注意:从文件中读取数据,要求文件内容符合 xml 格式,如果标签缺失,则不能正常读取。

二、XPath 实例测试

1. 获取所有的 li标签
在这里插入图片描述
输出结果:
在这里插入图片描述

2. 继续获取li标签的所有 class 属性
格式:节点名/@属性名
在这里插入图片描述

3. 继续获取li标签下 href 为link1.html 的 的a标签
在这里插入图片描述

4. 获取li标签下的所有 span标签(包括孙子 span )
在这里插入图片描述

5. 获取li标签下的a有 标签里的所有 class
在这里插入图片描述
6. 获取最后一个 li 的 的 a的 的 href
在这里插入图片描述

7. 获取倒数第二个元素的内容
在这里插入图片描述
8. 获取 class 值为 bold 的标签名
在这里插入图片描述

9. 获取一个标签下的所有文字(即:把子孙标签中的文字合到一起)
例如:

<div class="roo" style="float: right;">
	<font class="sstrong"></font>
	4276
	<font class="sstrong">条记录,当前显示</font>
	1-20
	<font class="sstrong"></font>
</div>

代码:

roo = html.xpath('//div[@class="roo"]')
#roo = html.xpath('string(//div[@class="roo"])')
for ro in roo:
	info = ro.xpath('string(.)')
	print(info)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值