以下以豆瓣电影为例,在控制台中输入命令
1、创建工程
scrapy startproject 项目名
scrapy startproject movie
2、创建爬虫程序
进入项目文件,创建爬虫
可按以下命名创建
cd 项目名
scrapy genspider 爬取网站 爬取网站一级域名(可保证爬虫不跳去目标网站)
系统自动创建 爬取网站.py 的爬虫py文件
cd movie
scrapy genspider douban douban.com
3、自动创建目录及文件
4、 在items.py
设置数据存储模板
5、 在douban.py
编写爬虫
6、在settings.py
设置配置文件
7、在pipelines.py
编写数据处理脚本
8、执行爬虫
在movie目录下,scrapy crawl 爬虫名
scrapy crawl douban --nolog