第六章:Scrapy框架-下载器中间件讲解

直接学习:https://edu.csdn.net/course/play/24756/283299
###下载器中间件讲解:
下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理,更换请求头等来达到反爬虫的目的。要写下载器中间件,可以在下载器中实现两个方法。一个是process_request(self,request,spider),这个方法是在请求发出之前会执行。还有一个是process_response(self,request,response,spider),这个方法是数据下载到引擎之前执行。
1、process_request(self,request,spider)方法:
这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。
#1、参数:
*request :发送请求的request对象
*spider:发送请求的spider对象
#2、返回值:
* 返回None:如果返回None,scrapy将继续处理该request,执行其他中间件中的相应的方法,直到合适的下载器处理函数被调用。
* 返回 Response对象:scrapy将不会调用其他的process_request方法,将直接返回这个response对象。已经激活的中间件的process_response()方法则会在每个response返回时被调用。
* 返回Request对象: 不再使用之前的request对象去下载数据,而是根据现在返回的request对象返回数据。
* 如果这个 方法中抛出了异常,则会调用process_exception方法。
2、process_response(self,request,response,spider)方法:
这个是下载器下载的数据到引擎中间会执行的方法。
#1、参数:
*request :request对象
*response:被处理的response对象
*spider:spider对象
#2、返回值:
* 返回 Response对象:会将这个新的response对象传给其他中间件,最终传给爬虫。
* 返回Request对象: 下载器链被切断,返回的request会重新被下载器调度下载。
* 如果抛出一个异常,那么调用request的errback方法,如果没有指定这个方法,那么会抛出一个异常。
#3、下载器中间件,如图
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值