Scrapy 是爬网站获得数据的应用框架。scrapy 环境下命令使用格式是:
scrapy <command> [options] [args]
可用的 commands有:
bench 运行benchmark 测试
安装完成后可用其测试功能是否正常。
fetch 利用下载器或指定爬虫抓取一个URL并将内容显示出来
例如,scrapy fetch "http://quotes.toscrape.com"。
genspider 基于已定义好的模板生成一个新爬虫
例如,scrapy genspider xx "http://quotes.toscrape.com"将基于basic模板生成爬虫xx。
runspider 运行一个自包含的爬虫(不需生成项目)
例如,scrapy runspider xx.py(xx为前面生成的爬虫)。
settings 获得设置值
shell 交互控制台
例如,scrapy shell "http://quotes.toscrape.com/page/1/"将进入python环境,可以运行response.css('title::text').extract()获得需要的信息。
startproject 建立一个新项目
例如,scrapy startproject XXX 将建立新项目XXX。
version 打印Scrapy版本信息
view 在浏览器中打开URL
例如,scrapy view"http://quotes.toscrape.com" 将把http://quotes.toscrape.com内容写到临时文件中并在浏览器中显示。
在打开的项目中(进入到含项目配置文件的文件夹中,假设在此项目中已定义爬虫quotes),还可使用以下crawl、edit及parse:
crawl 运行一个爬虫
例如,scrapy crawl quotes将运行爬虫quotes。
edit 编辑一个爬虫
例如,scrapy edit -s EDITOR=notepad quotes将利用notepad将定义爬虫quotes的文件打开。
parse 利用爬虫解析 URL并打印结果
例如,scrapy parse --spider=quotes"http://quotes.toscrape.com"
可使用 "scrapy <command>-h" 查看关于command的使用方式。