scrapy框架流程

西界M

于 2023-11-22 19:25:46 发布

阅读量686

点赞数

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45250558/article/details/134560558

版权

在这里插入图片描述

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象

2、将request请求对象传递给爬虫中间件

3、将request请求对象传递给Scrapy引擎（核心代码）

4、将request请求对象传递给调度器（它负责对多个request安排，好比交通管理员负责指挥交通）

5、将request请求对象传递给scrapy引擎

6、Scrapy引擎将request请求对象传递给下载中间件（可以更换代理IP 更换cookie 更换user-agent，自动重试等）

7、request请求对象传递给到下载器（它通过异步的发送HTTP（s）请求。得到响应封装为response对象）

8、将requests传递给下载中间件

9、下载中间件将response对象传递给scrapy引擎

10、Scrapy 引擎将response对象传递给爬虫中间件（这里可以处理异常情况）

11、爬虫对象中的parse函数被调用（在这里可以得到的response对象进行处理例如status得到的响应码，xpath可以进行提取数据等）

12、第11步调用的yelid管道调用piplines 对数据进行存储或处理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架流程

1、Scrapy从Spider子类中提取start_url,然后构造为request请求对象2、将request请求对象传递给爬虫中间件3、将request请求对象传递给Scrapy引擎（核心代码）4、将request请求对象传递给调度器（它负责对多个request安排，好比交通管理员负责指挥交通）5、将request请求对象传递给scrapy引擎6、Scrapy引擎将request请求对象传递给下载中间件（可以更换代理IP 更换cookie 更换user-agent，自动重试等）7、requ
复制链接

扫一扫

西界M CSDN认证博客专家 CSDN认证企业博客

码龄5年

58: 原创

46万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

677: 积分

31: 粉丝

39: 获赞

6: 评论

77: 收藏

私信

关注

热门文章

分类专栏

笔记 13篇
面试 1篇
html

最新评论

NameError: name ‘_mysql‘ is not defined
白话机器学习: 通过文章可以看出，博主很有耐心，技术文章不仅是对技术的坚守，更是对知识的热忱和热爱，感谢您的优质分享和坚持更文。期待着博主更加深入的剖析，为大家带来更多的技术好文。
openpyxl设置excel跳转链接和跳转样式
西界M: position是控制到单元格的
openpyxl设置excel跳转链接和跳转样式
Spring__Rider: 博主，你好，我想问下，如果有多个单元格都需要跳转到各自对应的单元格，要怎么设置呢？
openpyxl设置excel跳转链接和跳转样式
西界M: 我是菜鸟，我是菜鸟，我是菜鸟
openpyxl设置excel跳转链接和跳转样式
TTianbo123: 博主的技术面很广哦，而且都是干货文章，小菜鸟求带，可以加你微信随时和您交流吗，感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。