爬虫问题记录（xpath）——一行文本被xpath解析成多行文本

最新推荐文章于 2024-10-05 11:56:46 发布

府鲜生

最新推荐文章于 2024-10-05 11:56:46 发布

阅读量767

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_54243306/article/details/131042807

版权

首先先来看网页结构：

网页显示文本：

Python的xpath解析出来的结果：

出现问题的xpath写法：

xpath =  etree.xpath("//*[@id='review-list']//ul//div[4]/text()")
print(xpath)

可以看到在网页结构中，文本中间插入了img标签元素，在加上写xpath时在xpath后面添加了

/text（）

就会导致这个问题的出现。

暂时的解决方法：

xpath =  etree.xpath("//*[@id='review-list']//ul//div[4]")
print(xpath.text)

把要获取的文本内容移动到xpath之后就可以了，就是还有个问题，这样子就只会匹配到第一个文本。

后面的文本匹配不到，这个问题后面再看看怎么解决。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

府鲜生

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

XPath 基本定位方法：标签、属性、文本等

小蓝枣的博客

07-12

1176

XPath 是一种功能强大的查询语言，用于在 XML 和 HTML 文档中精确定位和提取元素。 XPath 提供了多种基本定位方法，包括标签定位、属性定位和文本定位等。本篇博客将深入探讨 XPath 的基本定位方法，通过详细的解释和实例演示来展示它们的特点和灵活性。

XPath提取网页数据（附实例）

Quest_sec的博客

04-03

9139

文章目录（一）XPath语法（二）用Python实践Python爬虫的两个思路：常用写法（三）一个案例【完整代码】（一）XPath语法借助Chrome浏览器的XPath插件来学习XPath语法，视频学习链接：网络爬虫与XPath（一）网络爬虫与XPath（二）笔记：目标标签、目标标签、目标属性、目标标签、父标签、父标签+父属性父标签+父属性+目标标签爷爷标签+父标签+…（规则...

参与评论您还未登录，请先登录后发表或查看评论

XPath提取多个标签下的text

最新发布

EdisonChenx的博客

10-05

133

【代码】XPath提取多个标签下的text。

python使用xpath文本定位元素

SilentCWQH的博客

09-15

3580

在目标与文本一一对应的时候，可以使用xpath根据文本定位目标。

python xpath text_python中XPATH 要想获取的东西里不分段，不变成列表就用STRING(),不用TEXT()...

weixin_39855869的博客

12-06

533

python中XPATH 要想获取的东西里不分段，不变成列表就用STRING(),不用TEXT()requests配合xpath来抓网站数据的时候，不像selenium+xpath。selenium有find_elementfind_elements，区别是带S ，查找第一个元素，和查找所有元素。requests只有xpath，简单粗暴的直接查找所有元素。所以tag1，要带下标[0]来输出...

通过Xpath解析尝试多种方法提取文本

weixin_44976611的博客

11-01

1658

【代码】通过Xpath解析尝试多种方法提取文本。

python爬虫（一）——爬虫框架设计

一名数据分析师

02-10

2695

爬虫框架

用python进行网络爬虫（三）—— 数据抓取

weixin_43576422的博客

08-29

588

在上一篇用python进行网络爬虫（一）—— 编写第一个爬虫我们构建了一个爬虫，但是却不够实用，因为爬虫在下载网页后就将结果丢弃了。现在我们需要从每个网页中抽取一些数据，然后实现某些事情，这个也称为抓取。分析网页要理解一个网页结构如何，可以使用查看网页源代码（view page source）的方法。一般来说大多数浏览器，在网页中右键鼠标就可以看到这个选项。不过这样有时候并不适合阅读。我们可以选择检查元素来查看：抓取网页方法 1、正则表达式正则表达式用起来比较复杂，如果不熟悉的话，建议先

Xpath简介及用法整理

Nikki0126的博客

06-03

4135

一、XPath的介绍与配置 1 XPath是什么？ XPath，即XML路径语言（XML Path Language），它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取简言之，XPath是一门语言，可以在XML文档中查找信息，支持HTML，通过元素和属性进行导航； XPath用以提...

如何构建一个大型搜索引擎——百度如何抓取海量数据并为用户找到信息？

AI天才研究院

09-21

1414

搜索引擎是互联网的一个重要组成部分，它作为信息检索入口承载着互联网上海量的可用信息。百度是一个著名的搜索引擎，拥有超过9亿用户、超过7亿流量、超过150万网页被索引，是中国最大的中文搜索引擎。从2005年百度的诞生到今日，百度已经成为互联网最活跃的门户网站之一，以提供优质的搜索结果、丰富的功能为用户打造了良好的网络环境。近几年，百度推出了基于机器学习技术的新型搜索引擎BaiDu AI开放平台（Baidu First），可以帮助企业解决信息过载的问题、提升竞争力。那么，百度究竟是怎样抓取海量数据的呢？

Python爬虫原理与常用模块——数据提取与清洗策略

学习服务

09-22

4686

1 正则表达式 1.1概念世界上信息非常多，而我们关注的信息有限。假如我们希望只提取出关注的数据，此时可以通过一些表达式进行提取，正则表达式就是其中一种进行数据筛选的表达式。正则表达式(Regular Expression)是一种文本模式，包括普通字符（例如，a 到 z之间的字母）和特殊字符（称为"元字符"）。正则表达式通常被用来匹配、检索、替换和分割那些符合某个模式(规则)的文本 Python 自1.5版本起增加了re模块，它提供Perl风格的正则表达式模式。 re 模块使 Python 语言拥有全

XPath 文本匹配：正则表达式的应用与技巧

小蓝枣的博客

07-13

2833

XPath 是一种强大的查询语言，用于在 XML 和 HTML 文档中定位和提取元素。正则表达式是一种强大的模式匹配工具，可以用来进行复杂的文本匹配。 XPath 结合正则表达式的使用，可以实现更精确和灵活的文本匹配和定位。本篇博客将深入探讨 XPath 中使用正则表达式进行文本匹配的方法和技巧，通过详细的解释和实例演示，展示它在元素筛选和定位方面的优势和灵活性。

xpath语法详解

热门推荐

shizuguilai的博客

01-12

1万+

# 从根节点开始// # 选择匹配的任何位置. # 当前节点.. # 父节点@ # 选择属性[node] # 选取所有node子元素[@attr] # 选取带有attr属性的所有元素。

html，xpath合并P标签以下的内容

qwe1110的博客

04-26

417

html，xpath合并P标签以下的内容，同时删除P标签下的span标签。

XPath 文本内容的模糊匹配：灵活筛选和定位元素的高级技巧

小蓝枣的博客

07-13

1382

XPath 是一种强大的查询语言，用于在 XML 和 HTML 文档中定位和提取元素。文本内容的模糊匹配是 XPath 的一项高级技巧，它允许我们使用通配符、正则表达式和特定函数来实现模糊匹配的筛选和定位。本篇博客将深入探讨 XPath 文本内容的模糊匹配技巧，通过详细的解释和实例演示，展示它在元素筛选和定位方面的优势和灵活性。

python xpath 包含指定文字的对象

weixin_29207533的博客

08-29

我整理的一些关于【path】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/xltfov使用 Python 和 XPath 查找包含指定文字的对象在进行网页数据抓取时，XPath 是一种非常强大的工具。XPath（XML Path Language）允许用户通过路径表达式在...

解决爬虫响应数据的多行正则匹配问题

lylg_ban的博客

10-22

306

网站url http://kw.beijing.gov.cn/col/col736/index.html 需求：拿到该网站首页的所有的链接分析该网站的预览可知该网站用正常方法匹配不到接着分析该网站的响应数据，发现该文档中有我需要的数据进入pycharm编辑代码打印响应数据 # TODO 第一种方法 urls = re.findall(r'/\w+/\d+/\d+/\d+/art_736_\d+.html', str(html_cont), re.S) # pr

xpath解析文本有空格问题处理

vayneX的博客

07-08

3971

使用xpath的参数normalize-space 通过去掉前导和尾随空白并使用单个空格替换一系列空白字符，使空白标准化。 html.xpath('normalize-space(//*[@id="MailUser"]//xxxx/text())') html.xpath('//a[normalize-space(text())="高校精选专题"]') ...

Python爬虫学习：XPath解析HTML实战——好段子爬取

"学习爬虫，理解XPath，以及在HTML中解析数据的方法，通过实例操作讲解XPath的常用路径表达式，并介绍如何在浏览器中安装XPath插件进行辅助定位。" XPath，全称为XML Path Language，是一种在XML（以及HTML）文档中...