xpath解析获取某个节点下所有的文本字符

最新推荐文章于 2024-06-02 21:04:42 发布

xufwind

最新推荐文章于 2024-06-02 21:04:42 发布

阅读量1.5w

点赞数 1

分类专栏： python scrapy 文章标签： python 爬虫

本文链接：https://blog.csdn.net/xufwind/article/details/88398863

版权

python 同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

scrapy

1 篇文章 0 订阅

订阅专栏

使用xpath解析某个节点下所有文本(包括该节点的文本和其所有子节点的文本):

from lxml import etree
import requests

url = 'xxx'
resp = requests.get(url)
html = resp.text
root = etree.HTML(html)

# 获取某个tr节点下面的所有文本数据数据
tr_text_all = root.xpath('string(/html/body/table[2]/tbody/tr[1])')

这样获取的文本，如果文本中包含空格(' '),文本又是utf-8编码的话，本文会出现 '\xa0' 这种东西，需要手工去替代:

tr_text_all = tr_text_all.replace('\r', '').replace('\t', '').replace('\n\n', '\n').replace('\xa0', ' ')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xufwind

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
xpath解析获取某个节点下所有的文本字符

使用xpath解析某个节点下所有文本(包括该节点的文本和其所有子节点的文本):from lxml import etreeimport requestsurl = 'xxx'resp = requests.get(url)html = resp.textroot = etree.HTML(html)# 获取某个tr节点下面的所有文本数据数据tr_text_all = roo...
复制链接

扫一扫