pyquery根据标签查询元素失败

最新推荐文章于 2024-03-02 12:25:23 发布

会飞的猩猩。

最新推荐文章于 2024-03-02 12:25:23 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫 Python 文章标签： pyquery 不能获取标签

本文链接：https://blog.csdn.net/zx1245773445/article/details/82821642

版权

Python 同时被 2 个专栏收录

44 篇文章 8 订阅

订阅专栏

爬虫

7 篇文章 0 订阅

订阅专栏

最近在做淘宝美食信息爬取练习的时候，发现用pyquery根据标签不能获取元素。后来发现主要是因为标签里面包含了

xmlns="http://www.w3.org/1999/xhtml"属性，去掉这个属性，或者用标签的其他属性就可以获取到元素信息.

在这里举一个?：

html = """
<div xmlns="http://www.w3.org/1999/xhtml" class="price g_price g_price-highlight">
              <span>
               ¥
              </span>
              <strong>
               58.90
              </strong>
</div>
"""
from pyquery import PyQuery as pq
doc = pq(html)
div = doc('div').text()
print('div:',div)
div_class = doc('.price').text()
print('div_class:', div_class)

输出结果如下，第一个结果是用div标签，第二是用div标签里面的class属性：

div: 
div_class: ¥
58.90

当我们把xmlns属性去掉以后，两者输出的结果是一样的：

div: ¥ 58.90
div_class: ¥ 58.90

同时xmlns还会影响子孙节点，我们可以看到下面的语句输出的结果为空：

print('strong:',doc('.price strong').text())

当我们去掉div的xmlns属性时，再次打印上面的结果，就会看见下面的结果 .

strong:58.90

有时候在网页的源码里面可能看不见这个属性，直接print标签也是看不到的；当该标签没有其他属性可以使用时，可以用该标签的父标签然后打印.html()，可以看到该标签的这个隐藏属性。

所以当标签存在xmlns属性时，是不能用标签来获取元素包括他的子孙节点，但是可以用标签的其他属性获取。

最后，我们在获取元素时，能尽量用标签的属性获取就尽量不用标签名。

会飞的猩猩。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录