OffsiteMiddleware
# 注册后初始化流程: from_crawler -> __init__ -> spider_opened -> get_host_regex # 实例化一个对象并得到一个允许的域名正则表达式
# 1 # process_start_requests(self, start_requests, spider)
# 6 # process_spider_input(self, response, spider)
# 7 # process_spider_output(self, response, result, spider)
# process_spider_exception(self, response, exception, spider)
# 爬虫中间件工作流程: process_spider_output -> _filter -> should_followg:过滤非允许域名的URL
RefererMiddleware
流程可以参考上面的流程,涉及到图片的抓取,要配置好正确的Referer
UrlLengthMiddleware
设置URLLENGTH_LIMIT,默认最小是2083
HttpErrorMiddleware
# 对应settings文件中全局设置的相关内容
# handle_httpstatus_all = True # 不推荐,因为错误的全部内容都会给出返回
# handle_httpstatus_list = [404, 302] # 酌情使用
# CrawlSpider 和 Spider 的区别:
# 执