scrapy详细理解，以及5大模块

最新推荐文章于 2024-09-19 21:10:27 发布

爱你三千遍s

最新推荐文章于 2024-09-19 21:10:27 发布

阅读量2.1k

点赞数 3

文章标签： scrapy

本文链接：https://blog.csdn.net/weixin_43883666/article/details/90515273

版权

本文详细介绍了Scrapy爬虫框架的核心组件，包括spiders（爬虫逻辑）、items.py（数据结构）、pipelines.py（数据处理）、settings.py（配置文件）和middlewares.py（中间件）。内容涵盖Scrapy的安装及配置，特别强调了Scrapy如何对数据进行封装和处理，要求在实际使用中对对象进行相应操作。

摘要由CSDN通过智能技术生成

Scrapy

# 创建项目
scrapy startproject   baidu
#记住这条命令在哪里文件就会创建在哪里

# 创建 spiders  必须要在项目的目录的目录下
scrapy genspider baidu0.1 www.baidu.com

#运行spiders
scrapy genspiders name
# 执行这条语句必须在 scrapy.cfg 同级的目录下
#一个项目的组成
	spiders  #这是一个包，爬虫所需要的逻辑
	items.py #用于数据的处理（item对象），清洗，存储，验证，数据持久化
	pipelines.py #与items一起使用
	settings.py # 项目配置文件 ，如配置 pipelines的优先级，爬取速度
	middlewares.py #用于spiders和引擎，Downloader和引擎，调度器和引擎之间。

spiders 爬虫所需要的逻辑

# spiders是一个包，包中可以有多个爬虫逻辑
#创建一个spiders
# scrapy genspider  dianliang  219.142.16.190:9001
# 其中第三个参数为 爬虫名称  
# 第四个参数为  爬取的url

import scrapy
# 导包 items
from neiwang.items import qutoItem
class paqu1Spider(scrapy.Spider):
    #爬虫的名字
	name = "paqu1&