scrapy 一次性提取多层嵌套标签的所有文本

最新推荐文章于 2021-01-17 16:24:21 发布

zheng_lan_fang

最新推荐文章于 2021-01-17 16:24:21 发布

阅读量1.2k

点赞数 1

分类专栏： Python 爬虫

Python 爬虫专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种利用XPath一次性提取多层嵌套标签所有文本的方法。通过使用双反斜杠的text()函数，可以避免循环拼接文本，直接获取到完整的文本内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

怎样才能一次性提取多层嵌套标签的所有文本，而不是通过循环判断来进行拼接呢。详细如下：

假如页面如下：

<p id='test'>hello<b>world!</b></p>

我要的提取结果是：helloworld!

这里就需要注意text()的使用了：

首先设置sel = Selector(text=doc, type='html')

#如果text()前面使用一个反斜杠：sel.xpath("//p[@id='test']/text()").extract()

得到的结果是：[u'hello']

#如果text()前面使用两个反斜杠：sel.xpath("//p[@id='test']//text()").extract()

这样提取出来的是一个列表，得到的结果是：[u'hello', u'world!']

然后再将列表循环拼接即可得到想要的结果：helloworld!。

转自：http://www.cnblogs.com/qlshine/p/5926101.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。