pyquery 获取标签children的text的值为None

最新推荐文章于 2022-08-14 10:27:38 发布

会飞的猩猩。

最新推荐文章于 2022-08-14 10:27:38 发布

阅读量1.7k

点赞数

分类专栏： Python 爬虫文章标签： python 爬虫 pyquery

本文链接：https://blog.csdn.net/zx1245773445/article/details/83053028

版权

Python 同时被 2 个专栏收录

44 篇文章 8 订阅

订阅专栏

爬虫

7 篇文章 0 订阅

订阅专栏

感觉爬虫里面有很多的小坑，这也是其中之一。

在写爬虫的时候，发现一直获取不了children的text，返回的值为 None. 但实际上text里面是有值的。出现这个原因主要是因为标签里面包含了<b></b>标签，这里给大家举个?：

下面这段代码的html里面的第一个li标签包含了一个b标签，然后我们分别用两种方法来获取第一个li里面的text，一种是通过ul的chidren来获取，另一种是直接获取

html = '''
<div id='container'>
    <ul class='list'>
         <li class="item-2"><b></b>first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">th
         ird item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
item = doc('.list')

lis = item.children()
print(item('.item-2').text())
print(lis[0].text)

这段代码输出的结果是：

first item
None

从代码上来看，两个print输出的结果应该都是一样的，为第一个li里面的text。但是第二个print的输出却为None。当我们将b标签从第一个li中去除后，会发现两个print的输出结果是一样的。

#去除标签里面的b标签
item.remove('b')
lis = item.children()
print(item('.item-2').text())
print(lis[0].text)
print(lis)

这段代码的输出结果是：

first item
 first item

有待确定是否还有其他标签会出现同样的问题。

会飞的猩猩。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录