Python用xpath爬取数据返回空列表解决 python爬虫,关于使用xpath写爬虫获取不到内容, 获取到空列表的解决方案

可能的情况:

1、url的问题

2、xpath路径问题

3、网页标签class,id属性等一定要注意看后面有没有空格

关于xpath路径问题

之前在做的爬虫都是用的xpath去获取内容,又想偷懒,所以就直接在源码那里直接复制路径,

然后就很容易踩雷了(我算是踩了很多坑了,不知道有没有小伙伴和我一样踩过这样的坑):

 此时可能会得到如下路径:

/html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span

然后跑开始爬虫,结果等来的却是一个‘[]',空列表很伤心。

为什么会空列表?

其中一个原因,你要看看你复制下来的路径中有没有tbody,

解决办法

我们需要把其中的tbody去掉即可(这个坑困扰了我好久,某天终于解决!)

原因:为什么需要去掉tbody?

浏览器会对html文本进行一定的规范化,所以会自动在路径中加入tbody,导致读取失败,在此处直接在路径中去除tbody即可。

其实有时候直接复制xpath不一定是对的,就比如上面,就出错了。

因为有些网站反爬虫的手段比较高明,它的网页其实是动态的,给你展示看到的源码你最终不一定能爬取到内容,所以很容易出现空列表这一情况。  希望大家早点避雷,不要像我一样!

tbody误我!!!!!

  • 16
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 28
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值