scrpay笔记

Scrapy流程

1、引擎: Hi spider ,你要处理一个网站。
2、spider: 老大要处理 http://xxx.com网站
3、引擎:你给我第一个URL来处理
4、spider:给你,第一个网址http://xxx.com。
5、引擎:嗨!调度器,我有请求的请求,请帮我整理和加入队列。
6、调度器:好的,正在处理,你等一下。
7、引擎:嗨!调度器,把处理过的请求发给我。
8、调度器:给你。这是我的request。
9、引擎:Hi,下载器。你按照老大的下载中间件的设置帮我下载这个request请求。
10、下载器:好的!给你。这是我下载的东西。如果下载失败,这个request下载就是白了,然后引擎告诉调度器,这个request下载失败了,记录一下,我们待会儿在下载。
11、引擎:嗨,spider,这是下载好的东西,并且已经按照老下载中间件处理了,你自己处理一下(交给def parse()函数处理)。
12、spider:我这里有两个结果,引擎,这个是我需要的跟进的URL,这个是我获取的item数据。
13、引擎:Hi,管道,我这儿有个item,你帮我处理一下!调度器,这个是需要跟进的URL,你帮我处理一下。然后从第四部开始循环,指导获取老大需要的全部信息。
14、管道、调度器:现在就做!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值