爬虫 scrapy框架简介

在这里插入图片描述

创建scrapy项目:scrapy startproject xxx
创建爬虫文件:scrapy genspider 爬虫名 爬虫名.com
运行scrapy项目:scrapy crawl 爬虫名

在创建完爬虫项目后,首先第一步,到settings.py中将ROBOTSTXT_OBEY = True改为False

scrapy engine(引擎):控制四大组件,负责四大组件之间的通讯、数据传递工作。
scheduler(调度器):负责接收引擎传递的url,按照一定的方式进行排列队列,当引擎需要时,将存放的url传递给引擎。
Downloader(下载器):负责下载引擎发送的所有请求,并获取response,交给引擎,再由引擎交给spider组件处理。
spider(爬虫组件):负责处理response,从中提取数据等,如果里面有需要请求的url时,会将url再交给调度器处理。
itempipeline(管道):负责处理spider组件传递的item(是一个类字典对象),保存item/处理item。
DownloaderMiddler(下载中间件):可以自定义扩展功能。比如随机UA、设置代理、设置selenium等等。
spiderMiddler(爬虫中间件):一般用不到,可以指定信号等等。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值