scrapy常用命令总结

攒了一袋星辰

于 2024-05-07 23:01:16 发布

阅读量630

点赞数 10

文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiugtt6141121/article/details/138549137

版权

1.创建scrapy项目的命令：
scrapy startproject <项目名字>
示例：
scrapy startproject myspider

2.通过命令创建出爬虫文件，爬虫文件为主要的代码文件，通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令：
在项目路径下执行:
scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字: 作为爬虫运行时的参数
允许爬取的域名: 为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url，如果爬取的url与允许的域不通则被过滤掉。

示例：

cd myspider 这一步是进入当前项目路径

scrapy genspider lianjia lianjia.com 再创建爬虫文件

item : 定制你要抓取的字段比方说你要去爬取一个网站里面有标题用name变量去接收就先在item里面定制好接收的字段
setting：放的是你爬虫的最基本信息包括爬虫的初始化伪装也需要在这里面去完成
pipelines:保存数据 --不管你是要保存数据到Excel里面或者数据里面都需要在这个文件抒写
middlewares:爬虫中间件

运行scrapy
命令：在项目目录下执行scrapy crawl <爬虫名字>

示例：scrapy crawl 爬虫名字 --nolog 忽略日志信息

7.1 也可爬虫项目中执行命令
每次我们写完代码进行测试的时候，都要去安装目录执行，所以为了方便，我们要写一个再爬虫项目根目录中创建.py结尾的文件，执行以下指令:

from scrapy import cmdline
cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])

#.extract()提取内容方法

打开Scrapy Shel
例如：
cd mySpider 进入项目路径
scrapy shell https://cs.lianjia.com/zufang/ #想要测试的url

攒了一袋星辰

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy常用命令总结

item : 定制你要抓取的字段比方说你要去爬取一个网站里面有标题用name变量去接收就先在item里面定制好接收的字段。允许爬取的域名: 为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url，如果爬取的url与允许的域不通则被过滤掉。2.通过命令创建出爬虫文件，爬虫文件为主要的代码文件，通常一个网站的爬取动作都会在爬虫文件中进行编写。setting：放的是你爬虫的最基本信息包括爬虫的初始化伪装也需要在这里面去完成。scrapy genspider
复制链接

扫一扫

攒了一袋星辰 CSDN认证博客专家 CSDN认证企业博客

码龄1年

安徽工业大学

136: 原创

9031: 周排名

1万+: 总排名

17万+: 访问

: 等级

3440: 积分

2569: 粉丝

3321: 获赞

38: 评论

2565: 收藏

私信

关注

热门文章

分类专栏

最新评论

爬虫案例 -- BOSS直聘招聘数据(详情页数据+__zp_stoken__逆向)
江户川新一基: 大佬，有啥监测点吗，我补出来但过不了
爬虫案例 -- BOSS直聘招聘数据(详情页数据+__zp_stoken__逆向)
江户川新一基: 老哥，补出来了没，我补的长度的417位左右也是不行
java - Stream流使用方法详细介绍
小川_wenxun: 文章内容丰富、实用性强，结构合理，语言流畅，代码清晰，思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文
java多线程等待唤醒机制详细介绍
luj_1768: 生产者和消费者模型是非常重要的控算模型，虽然看上去很简单、其实是很早就被重点讨论、却一直无法解决的社会难题。本文仔细介绍了相关的程序做法，使大家能够掌握相关软件的高深层次开发所需要的基本知识。对于大型软件开发者是非常有帮助的。推荐。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

攒了一袋星辰 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。