scrapy详细理解,以及5大模块

本文详细介绍了Scrapy爬虫框架的核心组件,包括spiders(爬虫逻辑)、items.py(数据结构)、pipelines.py(数据处理)、settings.py(配置文件)和middlewares.py(中间件)。内容涵盖Scrapy的安装及配置,特别强调了Scrapy如何对数据进行封装和处理,要求在实际使用中对对象进行相应操作。
摘要由CSDN通过智能技术生成

Scrapy

# 创建项目
scrapy startproject   baidu
#记住这条命令在哪里文件就会创建在哪里

# 创建 spiders  必须要在项目的目录的目录下
scrapy genspider baidu0.1 www.baidu.com

#运行spiders
scrapy genspiders name
# 执行这条语句必须在 scrapy.cfg 同级的目录下
#一个项目的组成
	spiders  #这是一个包,爬虫所需要的逻辑
	items.py #用于数据的处理(item对象),清洗,存储,验证,数据持久化
	pipelines.py #与items一起使用
	settings.py # 项目配置文件 ,如配置 pipelines的优先级,爬取速度
	middlewares.py #用于spiders和引擎,Downloader和引擎,调度器和引擎之间。

spiders 爬虫所需要的逻辑

# spiders是一个包,包中可以有多个爬虫逻辑
#创建一个spiders
# scrapy genspider  dianliang  219.142.16.190:9001
# 其中第三个参数为 爬虫名称  
# 第四个参数为  爬取的url

import scrapy
# 导包 items
from neiwang.items import qutoItem
class paqu1Spider(scrapy.Spider):
    #爬虫的名字
	name = "paqu1&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值