Scrapy框架应用

最新推荐文章于 2022-12-07 18:47:01 发布

做个精致男孩呀

最新推荐文章于 2022-12-07 18:47:01 发布

阅读量181

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/yexufan1755/article/details/105714387

版权

8 篇文章 2 订阅

订阅专栏

引擎(EGINE)
引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。
调度器(SCHEDULER)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(DOWLOADER)
用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的。
爬虫(SPIDERS)
SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求
项目管道(ITEM PIPLINES)
在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作
下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
爬虫中间件(Spider Middlewares)
位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

文件说明：

注意：一般创建爬虫文件时，以网站域名命名

关注