Scrapy 是一个非常优秀的爬虫框架,通过 Scrapy 框架,可以非常轻松地实现强大的爬虫系统,我们只需要将精力放在抓取规则以及如何处理抓取的数据上即可,本章介绍 Scrapy 的基础架构、安装以及 Scrapy Shell 的使用。
一、Scrapy 简介
Scrapy 是适用于 Python 的一个快速、高层次的屏幕抓取和 web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy 主要是包括如下 6 个部分。
- Scrapy Engine (Scrapy引擎):用来处理整个系统的数据流,触发各种事件。
- Scheduler (调度器):从
URL队列中取出一个URL。
本文介绍了Scrapy爬虫框架的基本概念,包括Scrapy的组件、工作流程及安装配置。Scrapy是一个用于数据抓取和提取的Python框架,可用于数据挖掘和自动化测试。文章还提到了Scrapy Shell,它是Scrapy提供的一个命令行工具,允许开发者测试和调试XPath表达式。
订阅专栏 解锁全文
1604

被折叠的 条评论
为什么被折叠?



