问题解决:TypeError: unsupported format string passed to NoneType.__format__

写在前面

  今天看博客的时候,有位小伙伴反应我之前的文章爬取软科排名的代码不能用了。

软科大学排名传送门(11.17更新): https://blog.csdn.net/weixin_44578172/article/details/109340255

于是我又运行了一下之前的代码发现确实是不能用了,而且会报错就是这样↓

在这里插入图片描述

问题分析

  为了帮助各位小伙伴理解,我将上面的报错翻译了一下就是这样的:传递给NoneType的格式字符串不受支持。

  这是因为我们在对网站内容进行爬取的时候,如果爬取的对应位置没有内容,python爬虫获取的值为 NoneType(<class ‘NoneType’>),又因为format格式化输出不支持NoneType类型,所以结果当然报错。

  之后我看了网站的源代码,发现确实有一些不一样,就是td标签中内容之前有了更多的空白(我大意了啊,没有闪~),如下图:

在这里插入图片描述

  发现了这一点爬虫人的警觉性涌上来了。我们知道string方法的作用是用来获取目标路径下第一个非标签字符串,得到的是个字符串(不知道的小伙伴现在也知道了哈),但现在前面有很多空白,所以.string之后我们得到的也就是空白即NoneType。好了,现在我们知道问题的原因了,那么解决方案如下

问题解决

  用text方法代替string方法即可。text的作用是用来获取目标路径下的子孙非标签字符串,返回的是字符串。然后我们在用.strip方法去掉头尾空白就可以完美解决了。效果图如下:

在这里插入图片描述
PS:关于string和text的区别,不太明白的小伙伴可以再查一查资料,我后面也会再整理些资料把text,get_text,string,strings等的区别给大家一一介绍

  本篇完,如有错误欢迎指出~

  • 53
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 30
    评论
评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我敲的贼快

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值