最近在做淘宝美食信息爬取练习的时候,发现用pyquery根据标签不能获取元素。后来发现主要是因为标签里面包含了
xmlns="http://www.w3.org/1999/xhtml"属性,去掉这个属性,或者用标签的其他属性就可以获取到元素信息.
在这里举一个?:
html = """
<div xmlns="http://www.w3.org/1999/xhtml" class="price g_price g_price-highlight">
<span>
¥
</span>
<strong>
58.90
</strong>
</div>
"""
from pyquery import PyQuery as pq
doc = pq(html)
div = doc('div').text()
print('div:',div)
div_class = doc('.price').text()
print('div_class:', div_class)
输出结果如下,第一个结果是用div标签,第二是用div标签里面的class属性:
div:
div_class: ¥
58.90
当我们把xmlns属性去掉以后,两者输出的结果是一样的:
div: ¥ 58.90
div_class: ¥ 58.90
同时xmlns还会影响子孙节点,我们可以看到下面的语句输出的结果为空:
print('strong:',doc('.price strong').text())
当我们去掉div的xmlns属性时,再次打印上面的结果,就会看见下面的结果 .
strong:58.90
有时候在网页的源码里面可能看不见这个属性,直接print标签也是看不到的;当该标签没有其他属性可以使用时,可以用该标签的父标签然后打印.html(),可以看到该标签的这个隐藏属性。
所以当标签存在xmlns属性时,是不能用标签来获取元素包括他的子孙节点,但是可以用标签的其他属性获取。
最后,我们在获取元素时,能尽量用标签的属性获取就尽量不用标签名。