python xpath表达式

本文介绍了如何利用Python的lxml库解析HTML文档,并通过XPath表达式提取内容和属性。lxml的etree模块能自动补全不完整的HTML标签并处理中文编码。解析过程包括加载文档和调用xpath()函数。XPath语法如('//标签1/标签2')用于选取特定层级的元素,获取内容和属性需要适当的筛选条件和表达式。
摘要由CSDN通过智能技术生成

       xpath适用于html/xml文档的搜索,lxml是一个html/xml的解析器,主要功能是如何解析和提取html/xml数据。通过lxml的etree模块,可以获得特殊的html、获取一类或指定标签的内容、获取标签属性。

from lxml import etree

#字符串里面是html格式的内容
text = '''
<div>
    <ul>
        <li class= "item01">这是一个li标签</a></li>
        <li class= "item02"><a href="https://www.baidu.com/">小张</a></li>
        <li class= "item04">
            <span>小王</span>
        </li>
    </ul>
</div>
'''

#获取特殊的html(从字符串)
#HTML()函数
htmlvalue =
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值