学习资源:https://www.bilibili.com/video/BV1jt411Q7PD?p=2&spm_id_from=pageDriver
Scheduler存放的是request对象
Downloader对收到的request对象进行发送请求操作
四个模块之间是没有直接相通的,而是通过Scrapy Engine来进行通信的
各个中间件(Middlewares)是用于对所通过其的requests或者responses进行处理的,其中Spiders Middlewares不会对所提取数据进行处理,因为数据再ItemPipeline中会进行相应的处理。
Scrapy爬虫学习草稿
最新推荐文章于 2024-06-13 23:31:36 发布