xpath应用之lxml模块使用

最新推荐文章于 2024-03-10 22:43:27 发布

孜孜孜孜不倦

最新推荐文章于 2024-03-10 22:43:27 发布

阅读量319

点赞数

分类专栏： python爬虫文章标签： xpath采用lxml模块使用

原文链接：https://blog.csdn.net/efheoihfe/article/details/81514250

版权

python爬虫专栏收录该内容

23 篇文章 1 订阅

订阅专栏

lxml 是一个 HTML/XML 的解析器，主要的功能是如何解析和提取 HTML/XML 数
据。

lxml 和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，
我们可以利用上篇文件的 XPath 语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档

安装lxml模块：

pip install lxml（或通过 wheel 方式安装）

fromstring():解析字符串
HTML():解析HTML对象
XML():解析XML对象
parse():解析文件类型对象

lxml可以通过etree.HTML()来加载一个HTML页面（最常用方法）


from lxml import etree
import  requests
 
url='http://tool.chinaz.com/'
resp=requests.get(url,timeout=50).content.decode('utf-8')
# 加载HTML页面（转换为xpath语法可识别的xml结构）
tree=etree.HTML(resp)
#打印全部a标签
hrefs=tree.xpath('//a')
for href in hrefs:
    print href.get('href'),'\t',href.text

一、初步使用

1、我们利用它来解析 HTML 代码，简单示例：
在这里插入图片描述

输出结果：
在这里插入图片描述

lxml 可以自动修正 html 代码，例子里不仅补全了 li 标签，还添加了 body，html 标
签。

2 、文件读取：
除了直接读取字符串，lxml 还支持从文件里读取内容。我们新建一个 hello.html 文件，
再利用 etree.parse() 方法来读取文件。
在这里插入图片描述
注意：从文件中读取数据，要求文件内容符合 xml 格式，如果标签缺失，则不能正常读取。

二、XPath 实例测试

1. 获取所有的 li标签
在这里插入图片描述
输出结果：

2. 继续获取li标签的所有 class 属性
格式：节点名/@属性名
在这里插入图片描述

3. 继续获取li标签下 href 为link1.html 的的a标签
在这里插入图片描述

4. 获取li标签下的所有 span标签（包括孙子 span ）
在这里插入图片描述

5. 获取li标签下的a有标签里的所有 class
在这里插入图片描述
6. 获取最后一个 li 的的 a的的 href

7. 获取倒数第二个元素的内容
在这里插入图片描述
8. 获取 class 值为 bold 的标签名

9. 获取一个标签下的所有文字（即：把子孙标签中的文字合到一起）
例如：

<div class="roo" style="float: right;">
	<font class="sstrong">共</font>
	4276
	<font class="sstrong">条记录，当前显示</font>
	1-20
	<font class="sstrong">条</font>
</div>

代码：

roo = html.xpath('//div[@class="roo"]')
#roo = html.xpath('string(//div[@class="roo"])')
for ro in roo:
	info = ro.xpath('string(.)')
	print(info)

孜孜孜孜不倦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xpath应用之lxml模块使用

一、 初步使用

二、XPath 实例测试

一、初步使用