使用scrapy爬数据遇到的那些error坑~~

最新推荐文章于 2024-05-16 11:04:19 发布

yingzoe

最新推荐文章于 2024-05-16 11:04:19 发布

阅读量1.7w

点赞数 1

本文链接：https://blog.csdn.net/yingzoe/article/details/81112178

版权

error 1：

Spider error processing <GET http://*****.com> (referer: None)

ValueError('Missing scheme in request url :%s'%self._url')

解决方法：

主要看ValueError('Missing scheme in request url :%s'%self._url')这一部分的提示错误。我在网上找了很多解决方法都说什么start_urls应该是个list而不是string。但是我不是这个问题，照改了还是有同样的错误。

所以我自己理解了一下这个错误说明，意思应该是说我返回的URL是 //www.58che.com/6055/，程序找不到这个地址。很明显， //www.58che.com/6055/缺少了https:的前缀，所以它找不到。

原来的程序：

subclass_link=subclass.xpath('@href').extract_first() #获取车型链接

所以我在程序里返回的URL加上了https:的判别：

subclass_link=subclass.xpath('@href').extract_first() #获取车型链接
subclass_link=subclass_link if 'https:' in subclass_link else ('https:' + subclass_link)
# 在原来的基础上加上了第二句

error 2：

TypeError: Object of type 'Selector' is not JSON serializable

error原因：有一个数据类型不是json格式的，从Traceback再往上看一下报错误的是第几行，然后看看那个对象，是不是一个可以转换成json的对象。

我一看，还真是！这里的错误显示我有一个叫“u_brick”的变量没有extract出来还是selector对象~~ 把这个变量的内容.extract()就好了！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yingzoe

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AttributeError: module ‘scrapy‘ has no attribute ‘Filed‘

weixin_43178406的博客

12-12

5万+

本文主要介绍了AttributeError: module ‘scrapy’ has no attribute 'Filed’解决方案，希望能对使用scrapy同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

Scrapy爬虫，数据存入MongoDB

songrenqing

06-13

8037

一些想法首次登陆MongoDB，由于没有设置用户管理权限，会给出警告，“WARNING: Access control is not enabled for the database”。警告（warning）和错误（error）不一样，你完全可以忽略警告，并不影响你使用MongoDB。即使你没有创建管理员权限，在没有账号和密码的情况下也可以对数据库进行操作。但是从安全的角度考虑，最好是给要操作的数...

3 条评论您还未登录，请先登录后发表或查看评论

xpath规则解析json格式数据

jinming215的博客

12-10

1290

class JsonNode(object): def __init__(self, json_data): self.json_data = json_data def obj_json(self): return self.json_data def ad(self): pass class AnalyzeJsonData(object): def __init__(self, json_data):

python错误解决： ERROR: Spider error processing

qq_37064763的博客

10-04

7900

python错误解决： ERROR: Spider error processing 背景需求：使用scrapy爬取某网站数据（包括商品图片、图书名字和价格）问题在创建项目后，创建spider文件并编写代码后发现ERROR: Spider error processing 解决方案：将item.py文件中定义的属性一一对应在这里插入图片描述 ...

Scrapy爬取数据[scrapy.core.scraper] ERROR: Spider error processing解决办法

热门推荐

zp17834994071的博客

08-26

1万+

在爬取数据的时候遇到会遇到很多各种各样的问题，但是有一个问题会经常出现，并且原因还很难发现，下面就给大家说下这个问题的原因，以及解决办法，开始运行会出现这样的一个错误： [scrapy.core.scraper] ERROR: Spider error processing 爬取数据代码：出现的报错问题详细信息：这时显示的信息是有空值None出现,导致的，其实也不难理解，大家可以想想，当我们爬取完网页信息的时候，当爬到最后一页的页面时，接下来就没有下一页的信息，如果我们没有进行判断的话，就会继续爬下

scrapy 爬虫使用FilesPipeline 下载出现302

奋斗的佘先生丶

10-31

5681

问题描述：在使用scrapy 爬取QQ邮箱的过程中，我想把邮件相应的附件同时下载下来。于是我使用了scrapy自带的下载功能FilesPipeline 。当我使用其爬取邮箱的时候，发现有部分可以爬取而一部分附件反馈为302。于是爬取失败 [scrapy] WARNING: File (code: 302): Error downloading file from 问题解决 def _

[scrapy.core.scraper] ERROR: Error processing {‘image_urls‘

liulanba的博客

01-04

4284

需要用到Linux脚本，参考了一些博客和电子书，整理了一些命令，仅供参考！ yum: Fedora/RedHat/SUSE 基于PRM包管理，能够从指定的服务器自动下载PRM包并安装，可以自动处理依赖关系，并且一次安装所有依赖的软件包，无须繁琐的一次次下载，安装。提供了查找，安装，删除某一个，一组，甚至全部软件包的命令。 yum[options][command][package…] options：可选，选项包括-h（帮助），-y（当安装过程提示选择全部为 “yes”），-q（不显示安装的过程）等等。 c

初学者scrapy框架爬取数据不成功，出现ERROR: Spider error processing错误问题的解决方法

05-11

对于初学者而言，在使用Scrapy框架进行网络爬虫开发的过程中，经常会遇到各种各样的错误，其中一种较为常见的错误便是“Spider error processing”（蜘蛛错误处理）。这类错误不仅会打断爬虫的正常执行流程，还可能...

python scrapy爬虫遇见301_python scrapy框架爬虫遇到301

weixin_29768055的博客

12-23

852

1.什么是状态码301301 Moved Permanently(永久重定向) 被请求的资源已永久移动到新位置，并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。如果可能，拥有链接编辑功能的客户端应当自动把请求的地址修改为从服务器反馈回来的地址。除非额外指定，否则这个响应也是可缓存的。比如，我们访问http://www.baidu.com 会跳转到https://www.bai...

scrapy爬虫:scrapy.FormRequest中formdata参数详解

09-16

### Scrapy爬虫：Scrapy.FormRequest中formdata参数详解 #### 1. 背景在进行网络爬虫开发的过程中，经常会遇到需要通过表单提交数据的情况。Scrapy框架提供了一个强大的工具——`FormRequest`来实现这一功能。在...

python爬虫之十一_scrapy框架经验、错误

IMchg的博客

11-05

4855

发是发发发的

scrapy实例（pipeline保存数据的各种错误）

weixin_43983838的博客

03-01

1746

然后我发现它换了一个键错误，后来我想到，是我键值对的键，符的是中文，不是item里面的这里又有一个错误，于是我把写入时的 “wb” 改成了 “w” 乱码首先，在spider这里没问题这里的infoDict也没问题，不过name_key这里为空，一会还要改一下正则然后我想到上面正确的列数和下面乱码的列数不一样，我想到自己在pipeline这里有些键没有写，于是我把所有键都都写...

scrapy的巨坑之注释

搁浅的博客

04-24

1168

2020-04-24 04:56:57 [scrapy.core.scraper] ERROR: Spider error processing <GET http://jibing.wenyw.com/aixiaozheng/> (referer: http://jibing.wenyw.com/pinyin-a.shtml) Traceback (most recent call ...

在github里面找到mysql_exporter采集mysql_up指标的代码

喝醉酒的小白

12-21

1210

然而，该源码可能会包含大量文件和代码行，涵盖了许多不同的指标和功能。指标是由MySQL Exporter采集得到的，MySQL Exporter是Prometheus的一个插件，用于从MySQL服务器中获取和暴露各种度量。请注意，这只是一个基础示例，并未涵盖错误处理或更复杂的行为。真正的MySQL Exporter会对各种可能的问题做出更详细的响应。指标的代码可能会分布在多个文件中，并且可能涉及到更复杂的逻辑。是 Prometheus Go client library 中的一个函数，用于创建一个新的。

Python Scrapy爬虫报错-Spider error processing

微特程序员

04-11

8111

在运行scrapy爬虫的过程中报错Spider error processing 错误信息原因排查过后发现是XPath配置错误，正确格式： XPath配置错误会导致爬虫程序解析dom失败 ...

[scrapy.core.scraper] ERROR: Spider error processing

weixin_44852386的博客

02-14

7607

#scrapy爬虫源代码 #所报的错误全部本来以为是缺少refer，然后就在settings里面添加了refer:https://github.com/login,发现不起作用

如何解决 Scrapy 下载图片时的文件名错误问题

一勺菠萝丶的博客

05-16

301

首先，我们定义一个函数，这个函数会移除或替换文件名中的非法字符。import re# 移除文件名中的非法字符，替换为下划线最后，我们需要在 Scrapy 项目的文件中启用自定义的 ImagesPipeline。

python中response.text_在pycharm中print(response.text)时报错

weixin_39662432的博客

12-08

851

2018-10-08 09:21:06 [scrapy.core.scraper] ERROR: Spider error processing (referer: None)Traceback (most recent call last):File "/usr/local/lib/python3.6/dist-packages/twisted/internet/defer.py", line...

scrapy_crawlspider_TypeError: dict expected at most 1 arguments, got 6

jss19940414的博客

01-11

4891

问题描述: 在使用scrapy的CrawlSpider框架进行网络爬虫的时候，spider文件中已定义好了items文件的类的实例化对象来进行返回，但是在执行该爬虫的时候报错，如下： 2019-01-11 23:23:50 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.jianshu.com/...

scrapy执行报错500 Internal Server Error