Scrapy入门

卡布达ovo

于 2024-09-28 19:49:11 发布

阅读量226

点赞数 2

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52394366/article/details/142620477

版权

Scrapy是一个用Python实现的快速、高层次的屏幕抓取和web抓取框架，主要用于抓取web站点并从页面中提取结构化的数据。

安装

pip install scrapy

创建Scrapy项目

使用scrapy startproject命令创建一个新的Scrapy项目。例如，创建一个名为myproject的项目：

scrapy startproject myproject

该命令会在当前目录下创建一个名为myproject的文件夹，其中包含Scrapy项目的所有必要文件和文件夹。

在项目文件夹中，使用scrapy genspider命令创建一个爬虫。

scrapy genspider example example.com

该命令会在myproject/spiders目录下创建一个名为example.py的爬虫文件。

Scrapy的项目结构

Scrapy项目的文件结构通常包括以下几个部分：

scrapy.cfg：项目的配置文件。

myproject/：项目的Python模块，将会从这里引用代码。

items.py：定义爬取结果的数据结构。

middlewares.py：定义下载器中间件和爬虫中间件。

pipelines.py：定义数据处理的管道。

settings.py：项目的全局配置文件。

spiders/：存储爬虫代码的目录。

Scrapy框架的组成

引擎（Engine）：控制数据流，触发事务。

调度器（Scheduler）：接受请求并将其加入队列，以便之后引擎需要时提供。

下载器（Downloader）：下载网页内容，并将内容返回给爬虫。

爬虫（Spider）：解析响应并生成提取结果和新的请求。

项目管道（Item Pipeline）：处理由爬虫提取出来的数据，如清洗、验证和存储。

下载器中间件（Downloader Middlewares）：处理引擎与下载器之间的请求及响应。

爬虫中间件（Spider Middlewares）：处理爬虫输入的响应和输出的结果及新的请求。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

卡布达ovo CSDN认证博客专家 CSDN认证企业博客

码龄4年

22: 原创

8108: 周排名

6万+: 总排名

1万+: 访问

: 等级

460: 积分

192: 粉丝

215: 获赞

4: 评论

116: 收藏

私信

关注

热门文章

最新评论

SpringCloud操作MySQL数据库
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
SpringCloud操作MySQL数据库
m0_74735156: 项目结构是怎么样的
Vue3项目文件作用
喝旺仔la: 你咋这聪明呢
Vue3项目文件作用
DngYT: 哇，怎么这么棒呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。