创建scrapy项目:scrapy startproject xxx
创建爬虫文件:scrapy genspider 爬虫名 爬虫名.com
运行scrapy项目:scrapy crawl 爬虫名
在创建完爬虫项目后,首先第一步,到settings.py中将ROBOTSTXT_OBEY = True改为False
scrapy engine(引擎):控制四大组件,负责四大组件之间的通讯、数据传递工作。
scheduler(调度器):负责接收引擎传递的url,按照一定的方式进行排列队列,当引擎需要时,将存放的url传递给引擎。
Downloader(下载器):负责下载引擎发送的所有请求,并获取response,交给引擎,再由引擎交给spider组件处理。
spider(爬虫组件):负责处理response,从中提取数据等,如果里面有需要请求的url时,会将url再交给调度器处理。
itempipeline(管道):负责处理spider组件传递的item(是一个类字典对象),保存item/处理item。
DownloaderMiddler(下载中间件):可以自定义扩展功能。比如随机UA、设置代理、设置selenium等等。
spiderMiddler(爬虫中间件):一般用不到,可以指定信号等等。