scrapy主要用来做爬虫项目的,scrapy的命令包括全局命令和项目命令
全局命令:
在项目外面输入 scrapy -h 可以查看
scrapy fetch 地址 [options] # 地址是要爬取的地址,options表示其他参数,比如--nolog,表示爬取时候不显示整个过程。
scrapy runspider python文件 #运行一个爬虫文件
scrapy shell 地址 [options] #爬取文件时,进入交互终端
scrapy startproject 项目名字 #创建爬虫项目
scrapy version #查看scrapy的版本
scrapy view 地址 # 在浏览器中打开要爬取的地址
项目命令:
输入scrapy -h 可以看到,项目命令包括全局命令
scrapy bench #可以测试硬件爬取的速度
scrapy genspider -l #查看有哪些爬虫模板
scrapy genspider -t basic zhaipu baidu.com # -t表示要创建爬虫文件,basic是爬虫的一种模板,zhaipu是爬虫文件的名字,baidu.com是要爬取网站的域名
scrapy crawl zhaipu --nolog #爬取爬虫项目下名字为zhaipu的爬虫,--nolog表示爬的时候不显示日志。整个命令用的最多
scrapy list #可以显示有哪些可以用的爬虫文件
scrapy edit zhaipu #此命令需要在linux下运行,表示编辑某个爬虫
scrapy parse http://www.baidu.com #表示直接获取某个网页