遍历xpath列表的问题

最新推荐文章于 2024-07-29 17:16:58 发布

weixin_44749897

最新推荐文章于 2024-07-29 17:16:58 发布

阅读量5.7k

点赞数 7

分类专栏：爬虫类

本文链接：https://blog.csdn.net/weixin_44749897/article/details/93637740

版权

爬虫类专栏收录该内容

1 篇文章 0 订阅

订阅专栏

遍历xpath分类的问题【大坑】

代码

from lxml import etree

text = ''' <div> <ul> 
        <li class="item-1"><a>first item</a></li> 
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html">third item</a></li> 
        <li class="item-1"><a href="link4.html">fourth item</a></li> 
        <li class="item-0"><a href="link5.html">fifth item</a>  
        </ul> </div> '''

html = etree.HTML(text)

ret = html.xpath("//li")
print(ret)  # [<Element li at 0x2d90f08>, <Element li at 0x2d90ee0>, <Element li at 0x2d90eb8>, <Element li at 0x2d90e90>, <Element li at 0x2d90e68>]
for i in ret:
    ret2 = i.xpath("//@class")
    print(ret2)

结果:

[<Element li at 0x2d90f08>, <Element li at 0x2d90ee0>, <Element li at 0x2d90eb8>, <Element li at 0x2d90e90>, <Element li at 0x2d90e68>]
['item-1', 'item-1', 'item-inactive', 'item-1', 'item-0']
['item-1', 'item-1', 'item-inactive', 'item-1', 'item-0']
['item-1', 'item-1', 'item-inactive', 'item-1', 'item-0']
['item-1', 'item-1', 'item-inactive', 'item-1', 'item-0']
['item-1', 'item-1', 'item-inactive', 'item-1', 'item-0']

理想结果:

[<Element li at 0x3230f30>, <Element li at 0x3230f08>, <Element li at 0x3230ee0>, <Element li at 0x3230eb8>, <Element li at 0x3230e90>]
['item-1']
['item-1']
['item-inactive']
['item-1']
['item-0']

问题:
在本次遍历中,每个i的etree.element内容不一样,理应xpath选择后不用，然而遍历后再xpath选择结果却一样。
推论,在子element中调用xpath会自动返回至顶层xpath路径。
解决办法:
分类完，遍历时在调用xpath方法时,在路径前面加" . "直接指向当前路径，就不会指向顶层xpath路径。
代码:

from lxml import etree

text = ''' <div> <ul> 
        <li class="item-1"><a>first item</a></li> 
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html">third item</a></li> 
        <li class="item-1"><a href="link4.html">fourth item</a></li> 
        <li class="item-0"><a href="link5.html">fifth item</a>  
        </ul> </div> '''

html = etree.HTML(text)

ret = html.xpath("//li")
print(ret)  # [<Element li at 0x2d90f08>, <Element li at 0x2d90ee0>, <Element li at 0x2d90eb8>, <Element li at 0x2d90e90>, <Element li at 0x2d90e68>]
for i in ret:
    ret2 = i.xpath(".//@class")  # 注意在//前面加了一个“.”
    print(ret2)