Scrapy命令行详解

最新推荐文章于 2024-08-18 23:35:50 发布

Mr.Bean-Pig

最新推荐文章于 2024-08-18 23:35:50 发布

阅读量2.5k

点赞数 1

分类专栏：爬虫文章标签： Scrapy框架爬虫命令行

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z714405489/article/details/84402280

版权

爬虫专栏收录该内容

23 篇文章 2 订阅

订阅专栏

1.创建项目：

scrapy startproject myproject [project_dir]

这将在project_dir目录下创建一个Scrapy项目。如果project_dir没有指定，project_dir将与myproject同名。

在这里插入图片描述
接下来，进入新项目目录：

cd project_dir

在这里插入图片描述

2.创建爬虫

scrapy genspider mydomain mydomain.com

在这里插入图片描述

可用的工具命令

我们始终可以通过运行以获取有关每个命令的更多信息：

scrapy <command> -h

你可以看到所有可用的命令：

scrapy -h

有两种命令，一种只能在Scrapy项目内部工作（特定于项目的命令）和那些在没有活动的Scrapy项目（全局命令）的情况下工作的命令，尽管从项目内部运行时它们可能表现略有不同（因为他们会使用项目覆盖设置）。

全局命令：

（没有项目时也可以使用）

startproject
genspider

创建爬虫：

scrapy genspider [-t template] <name> <domain>

列出创建spider所有可用模板：

scrapy genspider -l

指定模板生成spider ：

scrapy genspider -t crawl zhihu www.zhihu.com

可以从下图看到，py文件中使用了一个模板：
在这里插入图片描述

settings
获取配置文件信息
runspider
在Python文件中运行自包含的蜘蛛，而无需创建项目。
shell
见上文。https://blog.csdn.net/z714405489/article/details/84000464
获取数据后进入交互模式，可以使用程序中的方法进行操作
fetch
类似于requests的url请求。可以添加参数[–nolog]不显示响应头；[–headers]；显示响应头；[–no重定向]禁止重定向

 scrapy fetch <url>

在这里插入图片描述

view
会把请求的数据保存成一个文件并在浏览器中打开。
version
输出版本

仅限项目的命令：

（只能在有项目存在的情况下使用）

crawl
运行爬虫，后面的参数是spider的名称——

scrapy crawl spider

在这里插入图片描述

check
检查语法是否有错误

scrapy check

在这里插入图片描述

list
返回项目中所有spider的名称。
edit
使用这个命令可以在命令行中编辑spider。（在windows下貌似用不了。反正还是用IDE来编辑最方便了）
parse
获取给定的URL并使用处理它的spider解析它
bench
爬行速度

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。