scrapy框架爬虫中间件【学习笔记】

最新推荐文章于 2024-03-24 07:00:00 发布

?piu

最新推荐文章于 2024-03-24 07:00:00 发布

阅读量150

点赞数

文章标签： python scrapy

本文链接：https://blog.csdn.net/weixin_45766888/article/details/129715093

版权

本文介绍了Scrapy爬虫框架的几个关键中间件，包括OffsiteMiddleware用于限制抓取范围，RefererMiddleware处理请求的来源，UrlLengthMiddleware设定URL长度限制，以及HttpErrorMiddleware和DepthMiddleware分别处理HTTP错误和抓取深度。

摘要由CSDN通过智能技术生成

OffsiteMiddleware

# 注册后初始化流程： from_crawler -> __init__ -> spider_opened -> get_host_regex  # 实例化一个对象并得到一个允许的域名正则表达式
# 1 # process_start_requests(self, start_requests, spider)
# 6 # process_spider_input(self, response, spider)
# 7 # process_spider_output(self, response, result, spider)
# process_spider_exception(self, response, exception, spider)
# 爬虫中间件工作流程： process_spider_output -> _filter -> should_followg：过滤非允许域名的URL

RefererMiddleware

流程可以参考上面的流程，涉及到图片的抓取，要配置好正确的Referer

UrlLengthMiddleware

设置URLLENGTH_LIMIT，默认最小是2083

HttpErrorMiddleware

 # 对应settings文件中全局设置的相关内容
    # handle_httpstatus_all = True # 不推荐，因为错误的全部内容都会给出返回
    # handle_httpstatus_list = [404, 302]  # 酌情使用


# CrawlSpider 和 Spider 的区别：
# 执