LXML库XPATH解析HTML

最新推荐文章于 2024-03-11 11:40:50 发布

Residual Mark

最新推荐文章于 2024-03-11 11:40:50 发布

阅读量1.3k

点赞数

分类专栏： spider python

本文链接：https://blog.csdn.net/weixin_43933475/article/details/100543631

版权

本文介绍了Python中LXML库的使用，重点讨论了如何利用LXML的XPath功能解析HTML页面，包括库的安装、常见错误解决、示例代码及实际爬虫案例的应用。

摘要由CSDN通过智能技术生成

一：简述

基于Python做爬虫，在html页面爬取，解析方面，Xpath有极大的优势，也是由于LXML库的丰富功能，使爬虫越来越简单。

二：LXML库安装

`pip install lxml`

1：AttributeError: module ‘lxml’ has no attribute ‘etree’；

原因：anaconda中base环境中如果有lxml包的话，虚拟环境就会报错。
解决方案：在base环境中执行: pip uninstall -y lxml。

三：示例

from lxml import etree

text = """
<div>
   <ul>
     <li name="zhang" class="two">张三</li>
    <li name="li" class="three">李四</li>
    <li name="wang" class="four">王五</li>
   </ul>
</div>
"""

html = etree.HTML(text)
results = html.xpath('//li&#

最低0.47元/天解锁文章

Residual Mark

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LXML库XPATH解析HTML

一：简述基于Python做爬虫，在html页面爬取，解析方面，Xpath有极大的优势，也是由于LXML库的丰富功能，使爬虫越来越简单。二：LXML库安装pip install lxml1：AttributeError: module ‘lxml’ has no attribute ‘etree’；原因：anaconda中base环境中如果有lxml包的话，虚拟环境就会报错。解决方案：在...
复制链接

扫一扫

专栏目录