python xpath表达式

最新推荐文章于 2023-07-19 11:42:33 发布

LLLLLLLLLLLLIU

最新推荐文章于 2023-07-19 11:42:33 发布

阅读量416

点赞数

分类专栏： Python 文章标签： xpath python

本文链接：https://blog.csdn.net/weixin_44851971/article/details/108921441

版权

本文介绍了如何利用Python的lxml库解析HTML文档，并通过XPath表达式提取内容和属性。lxml的etree模块能自动补全不完整的HTML标签并处理中文编码。解析过程包括加载文档和调用xpath()函数。XPath语法如('//标签1/标签2')用于选取特定层级的元素，获取内容和属性需要适当的筛选条件和表达式。

摘要由CSDN通过智能技术生成

xpath适用于html/xml文档的搜索，lxml是一个html/xml的解析器，主要功能是如何解析和提取html/xml数据。通过lxml的etree模块，可以获得特殊的html、获取一类或指定标签的内容、获取标签属性。

from lxml import etree

#字符串里面是html格式的内容
text = '''
<div>
    <ul>
        <li class= "item01">这是一个li标签</a></li>
        <li class= "item02"><a href="https://www.baidu.com/">小张</a></li>
        <li class= "item04">
            <span>小王</span>
        </li>
    </ul>
</div>
'''

#获取特殊的html（从字符串）
#HTML()函数
htmlvalue =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LLLLLLLLLLLLIU

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python xpath表达式

from lxml import etree#获取特殊的html#将html格式的内容放在字符串里面text = '''<div> <ul> <li calss = "item01">这是一个li标签</a></li> <li calss = "item02"><a href="https://www.baidu.com/">小张</a></li>
复制链接

扫一扫