爬虫中间件

最新推荐文章于 2023-11-20 10:41:43 发布

青云--

最新推荐文章于 2023-11-20 10:41:43 发布

阅读量3.2k

点赞数

文章标签：中间件爬虫 python

本文链接：https://blog.csdn.net/yinjun3215/article/details/108826593

版权

Settings配置文件

常用的配置项：

BOT_NAME：项目名称。
ROBOTSTXT_OBEY：是否遵守爬虫协议。爬虫一般选择不遵守。
CONCURRENT_ITEMS：代表pipeline同时处理的item数的最大值。默认是100
CONCURRENT_REQUESTS：代表下载器并发请求的最大是，默认是16。
DEFAULT_REQUEST_HEADERS：默认请求头。可以将一些不会经常变化的请求头放在这个里面。
DEPTH_LIMIT：爬取网站最大允许的深度。默认为0，如果为0，则没有限制。
DOWNLOAD_DELAY：下载器在下载某个页面前等待多长的时间。该选项用来限制爬虫的爬取速度，减轻服务器压力。同时也支持小数。
DOWNLOAD_TIMEOUT：下载器下载的超时时间。
ITEM_PIPELINES：处理item的Pipeline，是一个字典，字典的key这个pipeline所在包的绝对路径，值是一个整数，优先级，值越小，优先级越高。
LOG_ENABLED：是否启用logging。默认是True。
LOG_ENCODING：log的编码。
LOG_LEVEL：log的级别。默认为DEBUG。可选的级别有CRITICAL、ERROR、WARNING、INFO、DEBUG。
USER_AGENT：请求头。默认为Scrapy/VERSION (+http://scrapy.org)。
PROXIES：代理设置。
COOKIES_ENABLED：是否开启cookie。一般不要开启，避免爬虫被追踪到。如果特殊情况也可以开启。

Downloader Middlewares（下载器中间件）

下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件，可以在下载器中实现两个方法。一个是process_request(self,request,spider)，这个方法是在请求发送之前会执行，还有一个是process_response(self,request,response,spider)，这个方法是数据下载到引擎之前执行。

process_request(self,request,spider)：

这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。

参数：
- request：发送请求的request对象。
- spider：发送请求的spider对象。
返回值：
- 返回None：如果返回None，Scrapy将继续处理该request，执行其他中间件中的相应方法，直到合适的下载器处理函数被调用。
- 返回Response对象：Scrapy将不会调用任何其他的process_request方法，将直接返回这个response对象。已经激活的中间件的process_response()方法则会在每个response返回时被调用。
- 返回Request对象：不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据。
- 如果这个方法中抛出了异常，则会调用process_exception方法。

process_response(self,request,response,spider)：

这个是下载器下载的数据到引擎中间会执行的方法。

参数：
- request：request对象。
- response：被处理的response对象。
- spider：spider对象。
返回值：
- 返回Response对象：会将这个新的response对象传给其他中间件，最终传给爬虫。
- 返回Request对象：下载器链被切断，返回的request会重新被下载器调度下载。
- 如果抛出一个异常，那么调用request的errback方法，如果没有指定这个方法，那么会抛出一个异常。

随机请求头中间件：

爬虫在频繁访问一个页面的时候，这个请求头如果一直保持一致。那么很容易被服务器发现，从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头，这样才可以避免爬虫被抓。随机更改请求头，可以在下载中间件中实现。在请求发送给服务器之前，随机的选择一个请求头。这样就可以避免总使用一个请求头了。示例代码如下：

class UserAgentDownloadMiddleware(object):
    # user-agent随机请求头中间件
    USER_AGENTS = [
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;',
        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Mozilla/5.0 (Windows NT 6.1; rv,2.0.1) Gecko/20100101 Firefox/4.0.1'
    ]
    def process_request(self,request,spider):
        user_agent = random.choice(self.USER_AGENTS)
        request.headers['User-Agent'] = user_agent

user-agent列表：http://www.useragentstring.com/pages/useragentstring.php?typ=Browser

ip代理池中间件

购买代理：

在以下代理商中购买代理：

芝麻代理：http://http.zhimaruanjian.com/
太阳代理：http://http.taiyangruanjian.com/
快代理：http://www.kuaidaili.com/
讯代理：http://www.xdaili.cn/
蚂蚁代理：http://www.mayidaili.com/
等购买代理。

使用ip代理池：

开放代理池设置：

 class IPProxyDownloadMiddleware(object):
     PROXIES = [
         "5.196.189.50:8080",
         "134.17.141.44:8080",
         "178.49.136.84:8080",
         "45.55.132.29:82",
         "178.44.185.15:8080"
     ]
     def process_request(self,request,spider):
         # proxy = random.choice(self.PROXIES)
         # print('被选中的代理：%s' % proxy)
         # request.meta['proxy'] = "http://" + proxy
         proxy = "121.199.6.124:16816"
         user_password = "970138074:rcdj35ur"
         request.meta['proxy'] = proxy
         request.headers['Proxy-Authorization'] = 'Basic ' + base64.b64encode(user_password.encode('utf-8')).decode('utf-8')

独享代理池设置：

 class IPProxyDownloadMiddleware(object):
     def process_request(self,request,spider):
         proxy = '121.199.6.124:16816'
         user_password = "970138074:rcdj35ur"
         request.meta['proxy'] = proxy
         # bytes
         b64_user_password = base64.b64encode(user_password.encode('utf-8'))
         request.headers['Proxy-Authorization'] = 'Basic ' + b64_user_password.decode('utf-8')