Scrapy命令行详解

官方文档

1.创建项目:

scrapy startproject myproject [project_dir]

这将在project_dir目录下创建一个Scrapy项目。如果project_dir没有指定,project_dir将与myproject同名。

在这里插入图片描述
接下来,进入新项目目录:

cd project_dir

在这里插入图片描述

2.创建爬虫

scrapy genspider mydomain mydomain.com

在这里插入图片描述

可用的工具命令

我们始终可以通过运行以获取有关每个命令的更多信息:

scrapy <command> -h

你可以看到所有可用的命令:

scrapy -h

有两种命令,一种只能在Scrapy项目内部工作(特定于项目的命令)和那些在没有活动的Scrapy项目(全局命令)的情况下工作的命令,尽管从项目内部运行时它们可能表现略有不同(因为他们会使用项目覆盖设置)。

全局命令:

(没有项目时也可以使用)

  • startproject
  • genspider

创建爬虫:

scrapy genspider [-t template] <name> <domain>

列出创建spider所有可用模板 :

scrapy genspider -l

指定模板生成spider :

scrapy genspider -t crawl zhihu www.zhihu.com 

可以从下图看到,py文件中使用了一个模板:
在这里插入图片描述

  • settings
    获取配置文件信息
  • runspider
    在Python文件中运行自包含的蜘蛛,而无需创建项目。
  • shell
    见上文。https://blog.csdn.net/z714405489/article/details/84000464
    获取数据后进入交互模式,可以使用程序中的方法进行操作
  • fetch
    类似于requests的url请求。可以添加参数[–nolog]不显示响应头;[–headers];显示响应头;[–no重定向]禁止重定向
 scrapy fetch <url>

在这里插入图片描述

  • view
    会把请求的数据保存成一个文件并在浏览器中打开。

  • version
    输出版本

仅限项目的命令:

(只能在有项目存在的情况下使用)

  • crawl
    运行爬虫,后面的参数是spider的名称——
scrapy crawl spider 

在这里插入图片描述

  • check
    检查语法是否有错误
scrapy check

在这里插入图片描述

  • list
    返回项目中所有spider的名称 。
    在这里插入图片描述

  • edit
    使用这个命令可以在命令行中编辑spider。(在windows下貌似用不了。反正还是用IDE来编辑最方便了)

  • parse
    获取给定的URL并使用处理它的spider解析它

  • bench
    爬行速度

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值