scrapy 环境下命令的使用

      Scrapy 是爬网站获得数据的应用框架。scrapy 环境下命令使用格式是:

                  scrapy <command> [options] [args]

      可用的 commands有:

             bench  运行benchmark 测试

                   安装完成后可用其测试功能是否正常。

            fetch   利用下载器或指定爬虫抓取一个URL并将内容显示出来

                   例如,scrapy fetch  "http://quotes.toscrape.com"。

           genspider   基于已定义好的模板生成一个新爬虫

                   例如,scrapy genspider xx "http://quotes.toscrape.com"将基于basic模板生成爬虫xx。

          runspider   运行一个自包含的爬虫(不需生成项目)

     例如,scrapy runspider xx.py(xx为前面生成的爬虫)。

           settings    获得设置值

           shell       交互控制台

                    例如,scrapy shell "http://quotes.toscrape.com/page/1/"将进入python环境,可以运行response.css('title::text').extract()获得需要的信息。

           startproject  建立一个新项目

                   例如,scrapy startproject XXX 将建立新项目XXX。

           version       打印Scrapy版本信息

           view         在浏览器中打开URL

     例如,scrapy view"http://quotes.toscrape.com" 将把http://quotes.toscrape.com内容写到临时文件中并在浏览器中显示。

      在打开的项目中(进入到含项目配置文件的文件夹中,假设在此项目中已定义爬虫quotes),还可使用以下crawl、edit及parse:

           crawl   运行一个爬虫

     例如,scrapy crawl quotes将运行爬虫quotes。

           edit     编辑一个爬虫

                 例如,scrapy edit -s EDITOR=notepad quotes将利用notepad将定义爬虫quotes的文件打开。

          parse    利用爬虫解析 URL并打印结果

                例如,scrapy parse --spider=quotes"http://quotes.toscrape.com"

 

    可使用 "scrapy <command>-h" 查看关于command的使用方式。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值