浏览器用xpath获取一直为空

最新推荐文章于 2023-10-27 10:02:29 发布

Cheng. py

最新推荐文章于 2023-10-27 10:02:29 发布

阅读量3.3k

点赞数 7

分类专栏：小白文章标签： xpath python 经验分享

本文链接：https://blog.csdn.net/weixin_45986798/article/details/119387329

版权

在尝试使用Python进行Web爬虫时，作者遇到XPath获取数据总是为空的问题。通过检查网页源代码，发现实际文本和链接位于`li`的`a`标签内。通过调整XPath路径并添加`@href`来获取链接，最终成功提取到所需数据。文章提醒开发者不应过度依赖XPath工具，要结合网页结构进行路径查找。

摘要由CSDN通过智能技术生成

这两天闲的无聊，随便爬了点小说和趣图，因为好久没使用xpath了，所以遇到了点问题，就是xpath值一直为空，举个例子:
爬取小说网站。
使用xpath工具查询小说网站导航栏的xpath路径是这样子的:
在这里插入图片描述
值是酱紫的:

用python测试下xpath

import requests
from lxml import etree

headers = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1"}

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Cheng. py

关注关注

7
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

xpath获取到的为空

Ducunyu的博客

10-04

2235

通过运行如下代码，返回的是一个空列表 # 模拟用户登录csdn学院，查看到该用户购买的课程，并拿到已经购买的课程名称 # 对已登录用户的已购买课程的request url进行分析 # 然后创建一个request，向该网站发送request请求 # request请求得到响应url， # response的内容是一个url对象 # 将url对象转换为python对象 # 本地操作该python对象，并存储到本地，以HTML形式 # 将response的内容存放在本地、存放为一个静态的HTML文件 impor

python xpath定位不到_python3中使用xpath无法定位，为什么一直返回空列表？

weixin_39525313的博客

12-04

1402

tbody问题:在爬去某些网站一些信息的时候，xpath工具上显示类容是正确的，但是在scrapy代码中一直返回空列表Scrapy的部分代码：class LotteryspiderSpider(scrapy.Spider):#爬虫名字name = 'LotterySpider'#允许的域名allowed_domains = ['www.lottery.gov.cn']#入口URL，扔到调度器sta...

参与评论您还未登录，请先登录后发表或查看评论

使用Xpath获取到了空列表

weixin_44998052的博客

07-12

1128

在学习爬虫的时候准备爬取天天基金网的数据结果发现拿到了页面xpath解析出来却是"[]" 错误代码： /html/body/div[2]/div[8]/div[3]/div[2]/div[3]/div/div[1]/table/tbody/tr[1]/td[1] 正确代码： Jname = html.xpath(’/html/body/div[2]/div[8]/div[3]/div[2]/div[3]/div/div[1]/table/tr[1]/td[1]/text()’) 把tbody去掉就对了

xpath scrapy爬虫时候xpath值为空解决方案

weixin_47420595的博客

06-25

2559

如果代码都没问题，那就是这一个问题： xpath 的语法问题：在 chrome中能获取数据不代表在 shell 中也一定能够获取数据，所以遇到这个问题可以尝试改写语法。

xpath解析列表为空的情况

qq_44821149的博客

06-25

766

scrapy自带xpath，不需要通过etree.HTML解析。还有一点就是scrapy的xpath以后要.extract()一下，才变成列表类型，这一点和etree有点区别。发现这种写法解析不出来数据：（这种绝对路径的写法）这种相对路径的写法可以解析出数据（用的相对路径）

Xpath定位列表返回为空

m0_63097763的博客

08-09

1568

Xpath定位列表返回为空，返回为空的原因可能是以下几种可能性之一： XPath路径错误。动态加载内容：有些网页使用JavaScript来动态加载内容，XPath可能无法直接捕捉到动态加载的元素。如果视频是通过JavaScript添加到页面上的，可能需要使用Selenium或其他工具来模拟浏览器行为，并等待视频加载完成后再查找它。视频标签不存在。要解决动态加载内容的问题，可以尝试使用Selenium或其他工具来模拟浏览器行为。Selenium是一个自动化测试工具，可以模拟用户在浏览器中的行为，包括加载页

etree.xpath获取数据为空的解决方法

Cheng.py的博客

08-26

3425

查看原网页结构 | - table | ---- tbody | ----------- tr | ----------------td 原网页是有一个tbody的。看看经过requests.get()之后的网页结构变成了 | - table | ---- tbody | ----------- tr | ----------------td xpath 去掉tbody即可注意: requests获取的网页会自动去掉 tbody ，也有可能把数据注释掉，注意对比原网页。 ...

Python爬虫：xpath，cookie都正确仍然无法爬取需要的内容解决方法之一

m0_71242960的博客

12-23

2417

经过很多次尝试以及仔细观察所爬取的html代码内容，我发现有一个标签里含有的css代码：style = display:none ，这行代码可以把这个标签里面的内容隐藏。展开这个标签里面的内容，很可能就是我们所需要的真实的页面a标签里面的url地址。注意，这里说了一般，有些网站的反爬措施很高级，甚至会封掉你的ip。看这篇文章的猿猿们肯定有了一定的python-xpath爬虫基础了，后面对li_tree的处理以及延伸获取所需要的页面内容我在这就不介绍啦！这样我们就得到了正确的li_tree。

拉勾网Python爬虫：Selenium+Xpath 反反爬、免登录获取全部职位详情

Python小蜗牛

03-15

2271

拉勾网Python爬虫：Selenium+Xpath反反爬、免登录获取全部职位详情需求描述需求分析实现原理注意问题备注：完整代码后续优化后记需求描述抓取拉勾网“北京”“数据分析师”30页职位详情数据生成 sql 文件需求分析拉勾网搜索页面一般都只展示30页、每页15个职位信息，约450条；拉勾网反爬加强，直接请求 positionAjax.json 无法获得包含职位信息的 json 数...

Python学习之用Requests和XPath多进程爬取有道单词数据

Leslie_Waong的博客

07-10

588

基础知识爬虫基本原理 1、发起请求使用http库向目标站点发起请求，即发送一个Request Request中包含哪些内容？（1）请求方式主要是GET、POST两种类型，另外还有HEAD、PUT、DELETE、OPTIONS等。（2）请求URL URL全称是统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用URL来唯一来确定（3）请求头包含请求时的头部信息，如User-...

Chrome复制的xpath抓取为空的问题

u012836179的博客

04-10

6604

解决办法：去掉xpath中的tbody即可。原因：浏览器复制的xpath会自动优化，自己加上tbody，其实网页源代码里是没有的。

Xpath中text()方法获取列表为空问题解决方法

qq_61177928的博客

02-10

2032

When we use XPath to crawl web pages, we may encounter such a problem: the list printed using the text method is empty, whichcan be caused by non specified direct content. attention:text() method can only get direct content, string(.) can get whole conte.

Python爬取xpath为空的解决方法

qq_52722582的博客

10-27

1614

所以路径不应该写img/@src,要以源代码路径为为准，改成img/@data-lazy-img!有小伙伴在爬取内容的适合发现，咦？明明复制过来的xpath路径，怎么会错呢！这是开发者工具看到的图书图片标签及内容。这是源代码对应的图书图片标签及内容。废话不多说，直接给出解决3个方案。分享到此结束，下课~

pycharm 中的xpath返回值一直为空!

qq_40421324的博客

04-25

1999

用re的话也可以获得数据，就是用xpath不行，有大哥方便指点指点吗? 欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们...

python xpath匹配结果为空

qq_35425070的博客

02-19

1万+

写python爬虫的时候为了省事，通常会在在浏览器中打开F12，右键复制 xpath 。谷歌浏览器这里有一个坑，在这费了半天时间复制的xpath为 python中如下：//*[@id=“mainFrame”]/div/table/tbody/tr/td[1]//text() 使用浏览器插件 xpath helper 测试匹配成功！到了python代码里怎么写都匹配不到，如下 xxx.x...

关于xpath解析出空列表的原因

Sanzy_k的博客

07-21

8759

第一种，网上搜的很多关于这方面的内容都是与tbody标签有关，解决方法无非是去掉这个标签第二种，网页标签class，id属性等一定要注意看后面有没有空格第三种，xpath表达式正确，仍然解析不出，一定要查看对应网址的网页源码，即检查工具response部分，看源码是否是如下样式! 该样式代表源码被注释掉，所以即使xpath表达式正确也仍然解析不到，解决方法有两种，其一可以更换比较低级的user-agent ，再者是 def parse_data(self,data): #提取数据一切以

爬虫关于xpath在代码中返回为空的问题

Lin_junhan的博客

08-27

3938

在爬取的过程中可能会遇到在浏览器中的xpath插件中输入抽取规则后能相应的提取想要的内容，但是将这个xpath提取规则放入代码中却无法提取到内容的情况，这是可以留意下以下是否在xpath的提取规则中包含tbody标签。要注意一下，这里的主要问题是tbody标签的问题，网页返回本身是没有这个标签（还是得仔细看），是浏览器规范html元素中加上的，所以xpath路径中使用tbody标签就返...

python爬虫xpath出来空值_Python爬虫之数据解析（XPath）

weixin_30072453的博客

02-21

3605

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历，而将 HTML文档转换成 XML文档后，就可以用 XPath 查找 HTML 节点或元素。XML 文档的特点：XML 文档中的每个成分都是一个节点。整个文档是一个根节点；每个 XML 标签是一个元素节点；包含在 XML 元素中的文本是文本节点；每一个 XML 属性是一个属性节点；注释则属于...

关于爬虫中xpath返回为空的问题