pyquery根据标签查询元素失败

最近在做淘宝美食信息爬取练习的时候,发现用pyquery根据标签不能获取元素。后来发现主要是因为标签里面包含了

xmlns="http://www.w3.org/1999/xhtml"属性,去掉这个属性,或者用标签的其他属性就可以获取到元素信息.

在这里举一个?:

html = """
<div xmlns="http://www.w3.org/1999/xhtml" class="price g_price g_price-highlight">
              <span>
               ¥
              </span>
              <strong>
               58.90
              </strong>
</div>
"""
from pyquery import PyQuery as pq
doc = pq(html)
div = doc('div').text()
print('div:',div)
div_class = doc('.price').text()
print('div_class:', div_class)

输出结果如下,第一个结果是用div标签,第二是用div标签里面的class属性: 

div: 
div_class: ¥
58.90

当我们把xmlns属性去掉以后,两者输出的结果是一样的:

div: ¥ 58.90
div_class: ¥ 58.90

同时xmlns还会影响子孙节点,我们可以看到下面的语句输出的结果为空:

print('strong:',doc('.price strong').text())

当我们去掉div的xmlns属性时,再次打印上面的结果,就会看见下面的结果 .

strong:58.90

有时候在网页的源码里面可能看不见这个属性,直接print标签也是看不到的;当该标签没有其他属性可以使用时,可以用该标签的父标签然后打印.html(),可以看到该标签的这个隐藏属性。

所以当标签存在xmlns属性时,是不能用标签来获取元素包括他的子孙节点,但是可以用标签的其他属性获取。

最后,我们在获取元素时,能尽量用标签的属性获取就尽量不用标签名。

 

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值