scrapy框架总执行预览

最新推荐文章于 2024-04-30 13:46:50 发布

zouzhe121

最新推荐文章于 2024-04-30 13:46:50 发布

阅读量95

点赞数

原文链接：https://blog.csdn.net/happyAnger6/article/details/53367108

版权

本文为转载

原文链接： https://blog.csdn.net/happyAnger6/article/details/53367108

scrapy是一个基于twisted实现的开源爬虫，要读懂其源码，需要对twisted的异步编程模型有一定了解。可以通过之前3篇deferred的相关教程了解。

下面是总结的执行一个爬虫任务的整体执行流程，请将图片放大查看，即运行"scrapy crawl xxxSpider"的执行流程：

流程中主要的颜色框的含义如下：

1.红色框是模块或者类。

2.紫色框是向模块或者类发送的消息，一般为函数调用。

3.红色框垂直以下的黑色框即为本模块或者对象执行流程的伪代码描述。

几个关键的模块和类介绍如下：

cmdline:命令行执行模块，主要用于配置的获取，并执行相应的ScrapyCommand。

ScrapyCommand:命令对象，用于执行不同的命令。对于crawl任务，主要是调用CrawlerProcess的crawl和start方法。

CrawlerProcess:顾名思义，爬取进程，主要用于管理Crawler对象，可以控制多个Crawler对象来同时进行多个不同的爬取任务，并调用Crawler的crawl方法。

Crawler:爬取对象，用来控制一个爬虫的执行，里面会通过一个执行引擎engine对象来控制spider从打开到启动等生命周期。

ExecutionEngine:执行引擎，主要控制整个调度过程，通过twisted的task.LoopingCall来不断的产生爬取任务。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zouzhe121

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

scrapy源码分析（一）---------------------总执行流程概览

happyAnger6的专栏

11-27

8499

scrapy是一个基于twisted实现的开源爬虫，要读懂其源码，需要对twisted的异步编程模型有一定了解。可以通过之前3篇deferred的相关教程了解。下面是总结的执行一个爬虫任务的整体执行流程，即运行"scrapy crawl xxxSpider"的执行流程：流程中主要的颜色框的含义如下： 1.红色框是模块或者类。 2.紫色框是向模块或者类发送的消息，一般为函数调用。

scrapy的运行流程

weixin_42958164的博客

08-28

1813

Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。调度器(Scheduler) 调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。下载器(Downloader) 下载器负责获取页面数据并提供给引擎，而后提供给spider。 Spiders...

参与评论您还未登录，请先登录后发表或查看评论

scrapy的工作流程

低调说

01-29

3608

scrapy的工作流程如下图所示整个工作流程, 爬虫中起始的url构造成request对象, 并传递给调度器. 引擎从调度器中获取到request对象. 然后交给下载器由下载器来获取到页面源代码, 并封装成response对象. 并回馈给引擎引擎将获取到的response对象传递给spider, 由spider对数据进行解析(parse). 并回馈给引擎引擎将数据传递给pipeline进行数据持久化保存或进一步的数据处理. 在此期间如果spider中提取到的并不是数据. 而

scrapy架构及执行流程-scrapy框架2-python

gaogzhen的博客

02-22

1437

1、概述官网架构及执行流程图：官方文档地址:https://docs.scrapy.org/en/latest/topics/architecture.html#components 2、scrapy 组件 Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。 Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Scrapy框架的核心架构和执行流程

qq_35187510的博客

04-19

4785

一

python爬虫基础包含scrapy框架笔记

09-06

Python 爬虫是用于自动化地从互联网上提取数据的重要工具...总之，Python的urllib库和Scrapy框架提供了丰富的功能，帮助我们高效地进行网络爬虫。学习和掌握这些基础知识，能够为后续更复杂的爬虫项目打下坚实的基础。

【爬虫实战】利用scrapy框架爬取豆瓣图书信息

丁鱼教育官方博客

07-03

3617

一、前言 scrapy是基于twisted的异步处理框架，与传统的requests爬虫程序执行流程不同，scrapy使用多线程，将发送请求，提取数据，保存数据等操作分别交给Scheduler（调度器），Downloader（下载器），Spider（爬虫），Pipeline（管道）等爬虫“组件”来完成。多线程的运行框架使得爬虫的效率大大提升，让爬虫程序变得更快，更强。基于以上特点，本文将以爬取豆瓣图书信息为例，简要阐述基于scrapy框架下的爬虫实现流程。二、爬虫流程以及代码实现（一）分析需要爬取的

20B_基于Scrapy的WebUI开发_项目需求规格说明书v2.3.01

08-08

本项目的目标是开发一个基于Scrapy的WebUI，使用户可以通过图形化界面创建、管理、执行和监控Scrapy爬虫任务，简化数据抓取流程，提高工作效率，并提供数据预览和导出功能。 2.2 用户特点主要用户群体分为两类：...

Python爬虫——利用Scrapy批量下载图片

m0_60721860的博客

04-30

630

引擎(Scrapy)：核心组件，处理系统的数据流处理，触发事务。调度器(Scheduler)：用来接受引擎发出的请求, 压入队列中, 并在引擎再次请求的时候返回。由URL组成的优先队列, 由它来决定下一个要抓取的网址是什么，同时去除重复的网址。下载器(Downloader)：用于下载网页内容, 并将网页内容返回给Spiders。爬虫(Spiders)：用于从特定的网页中提取自己需要的信息, 并用于构建实体(Item)，也可以从中提取出链接,让Scrapy继续抓取下一个页面。

20B_基于Scrapy的WebUI开发_项目计划书V1.0.01

08-08

- **爬虫项目**: 使用Scrapy框架编写的一系列爬虫脚本，用于自动化抓取特定网站的数据。 **二、项目概述** 2.1 **项目目标** 本项目的目的是设计并实现一个基于Scrapy的Web应用程序，用户通过WebUI可以轻松创建、...

scrapy执行流程

weixin_30917213的博客

05-14

114

scrapy执行流程整体流程 - 引擎找到要执行的爬虫，并执行爬虫的 start_requests 方法，并的到一个迭代器。- 迭代器循环时会获取Request对象，而request对象中封装了要访问的URL和回调函数。- 将所有的request对象(任务)放到调度器中，用于以后被下载器下载。- 下载器去调度器中获取要下载任务（就是Request对象），下载完成后执行回调函数...

Scrapy源码阅读分析<一>

小岁月太着急

07-05

4706

介绍 Scrapy是一个基于Python编写的一个开源爬虫框架，它可以帮你快速、简单的方式构建爬虫，并从网站上提取你所需要的数据。这里不再介绍Scrapy的安装和使用，本系列主要通过阅读源码讲解Scrapy实现思路为主。如果有不懂如何使用的同学，请参考官方网站或官方文档学习。（写本篇文章时，Scrapy版本为1.4）简单来说构建和运行一个爬虫只需完成以下几步：使用sc

Scrapy 框架流程详解

__tian__的博客

11-15

605

框架流程图 Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯，整体架构大致如下(绿线是数据流向)：简单叙述一下每层图的含义吧： Spiders(爬虫)：它负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器) Engine(引擎)：框架核心，负责Spider、...

scrapy框架使用流程

gaoshayo的博客

09-08

2844

scrapy介绍上面的这张图是Scrapy的整个结构。你可以把整个Scrapy框架看成是一家爬虫公司。最中心位置的Scrapy Engine(引擎）就是这家爬虫公司的大boss，负责统筹公司的4大部门，每个部门都只听从它的命令，并只向它汇报工作。我会以爬虫流程的顺序来依次跟你介绍Scrapy爬虫公司的4大部门。 Scheduler(调度器)部门主要负责处理引擎发送过来的requests对象（即网页请求的相关信息集合，包括params，data，cookies，request headers…等），会把

Scrapy框架搭建流程

justDoIt

05-31

381

Scrapy框架搭建流程在学python爬虫搭建scrapy时遇到了很多问题，看了很多大神的博客后完成了Scrapy的安装，在这把框架搭建过程分享给大家。总结归纳：按照下图，从下往上的顺序加载包即可完成安装。安装演示：我用的pip和pycharm配合安装，大家也可以只用PIP或者pycharm。但是前提是要确保PIP已经更新。1、更新PIP到最新的版本。 DOS操作： pyth...

scrapy框架流程

别追我我有止咳糖浆

11-28

566

scrapy框架是基于python的爬虫框架,大致流程如下: scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。 Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。 scrapy 框架的工作流...

Scrapy源码分析（一）：代码结构初探

u011423145的博客

11-24

1028

前言很多朋友在使用scrapy编写爬虫的时候，都能感受到这个框架的在定制性方面的强大。我们完成一个爬虫只需要定义好Spider抽取规则即可。即使再复杂一点的需求，我们也可以通过pipeline来控制爬虫的输出，middleware来控制下载中的请求定制。可是大家有没有想过scrapy是如何将我们的初始种子url一步步的下载、解析、加入新队列，周而复始的运行呢？这篇文章我来带着大家通过阅读文...

scrapy运行流程解析

lyy的博客

10-17

592

首先要明白这些英文单词的含义： Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。调度器(Scheduler) 调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。（其实就是存储request请求的队列）下载器(Downloader) 下载器负责获取页面数据...

scrapy框架的执行流程