网络爬虫---scrapy介绍

scrapy主要用来做爬虫项目的,scrapy的命令包括全局命令和项目命令

全局命令:

在项目外面输入 scrapy -h 可以查看

scrapy fetch 地址 [options]   # 地址是要爬取的地址,options表示其他参数,比如--nolog,表示爬取时候不显示整个过程。

scrapy runspider python文件   #运行一个爬虫文件

scrapy shell 地址 [options]  #爬取文件时,进入交互终端

scrapy  startproject  项目名字 #创建爬虫项目

scrapy version  #查看scrapy的版本

scrapy view 地址  # 在浏览器中打开要爬取的地址

 

项目命令:

输入scrapy -h 可以看到,项目命令包括全局命令

scrapy bench #可以测试硬件爬取的速度

scrapy genspider -l  #查看有哪些爬虫模板

scrapy genspider -t basic zhaipu baidu.com # -t表示要创建爬虫文件,basic是爬虫的一种模板,zhaipu是爬虫文件的名字,baidu.com是要爬取网站的域名

scrapy crawl zhaipu --nolog  #爬取爬虫项目下名字为zhaipu的爬虫,--nolog表示爬的时候不显示日志。整个命令用的最多

scrapy list  #可以显示有哪些可以用的爬虫文件

scrapy edit zhaipu   #此命令需要在linux下运行,表示编辑某个爬虫

 scrapy parse http://www.baidu.com  #表示直接获取某个网页

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值