scrapy shell的使用

最新推荐文章于 2024-03-27 17:09:57 发布

VIP文章 yuhui_2000

最新推荐文章于 2024-03-27 17:09:57 发布

阅读量2.1k

点赞数 2

分类专栏： scrapy框架学习文章标签： python

本文链接：https://blog.csdn.net/yuhui_2000/article/details/109017800

版权

scrapy深入之scrapy shell

介绍

scrapy是一个交互终端，我们可以在没有启动spider的情况下尝试及调试代码，也可以用来测试xpath表达式。
如果我们在使用scrapy爬虫的时候出现了某些问题或者是某些方法不会的时候，我们可以在这个交互式面板中进行调试。

使用方法

在终端中我们的项目路径下执行下面的代码

scrapy shell url
例如：
scrapy shell http://www.itcast.cn/channel/teacher.shtml

输入之后，我们就可以通过scrapy请求这个url地址，请求之后会进入一个交互式的终端，

安装了ipython：进入ipython
没有安装ipython：进入python的终端

2020-10-11 22:55:57 [asyncio] DEBUG: Using selector: SelectSelector
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object

最低0.47元/天解锁文章

优惠劵

yuhui_2000

关注关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
scrapy shell的使用

scrapy深入之scrapy shell
复制链接

扫一扫

专栏目录

150讲轻松学习Python网络爬虫

05-16

【为什么学爬虫？】 1、爬虫入手容易，但是深入较难，如何写出高效率的爬虫，如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中，经常容易遇到被反爬虫，比如字体反爬、IP识别、验证码等，如何层层攻克难点拿到想要的数据，这门课程，你都能学到！ 2、如果是作为一个其他行业的开发者，比如app开发，web开发，学习爬虫能让你加强对技术的认知，能够开发出更加安全的软件和网站【课程设计】一个完整的爬虫程序，无论大小，总体来说可以分成三个步骤，分别是：网络请求：模拟浏览器的行为从网上抓取数据。数据解析：将请求下来的数据进行过滤，提取我们想要的数据。数据存储：将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。那么本课程也是按照这几个步骤循序渐进的进行讲解，带领学生完整的掌握每个步骤的技术。另外，因为爬虫的多样性，在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性，分别是：爬虫进阶：包括IP代理，多线程爬虫，图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。Scrapy和分布式爬虫：Scrapy框架、Scrapy-redis组件、分布式爬虫等。通过爬虫进阶的知识点我们能应付大量的反爬网站，而Scrapy框架作为一个专业的爬虫框架，使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求，我们可以用分布式爬虫让多台机器帮助你快速爬取数据。从基础爬虫到商业化应用爬虫，本套课程满足您的所有需求！【课程服务】专属付费社群+定期答疑

python asyncio_深入理解 python 异步 i/o 库 —— asyncio

weixin_39825259的博客

11-23

144

python的asyncio库以协程为基础，event_loop作为协程的驱动和调度模型。该模型是一个单线程的异步模型，类似于node.js。下图我所理解的该模型事件循环通过select()来监听是否存在就绪的事件，如果存在就把事件对应的callback添加到一个task list中。然后从task list头部中取出一个task执行。在单线程中不断的注册事件，执行事件，从而实现了我们的event...

参与评论您还未登录，请先登录后发表或查看评论

爬虫框架Scrapy从创建到使用

kkddqq1121的博客

03-27

630

PaC #项目文件名称PaC #项目目录items.py #定义数据结构middlewares.py #中间件pipelines.py #数据处理settings.py #全局配置spiderspac.py #爬虫文件scrapy.cfg #项目基本配置文件。

scrapy爬虫之scrapy命令行

fengzhilaoling的博客

07-08

600

scrapy全局命令全局命令有 startproject：创建项目 settings：查看设置信息 runspider：运行爬虫 shell：打开shell调试 fetch：下载网页信息 view：使用浏览器打开指定网址 version：查看版本 scrapy项目命令(需在项目中才能执行) 项目命令有 crawl：运行指定爬虫 check：检查爬虫代码 list：列出所有的爬虫 edit：使用默认的编辑器编辑爬虫 parse：使用爬虫抓取指定URL genspider：创建爬虫 bench：快速的性

Python爬虫——Scrapy-1

DDDDWJDDDD的博客

03-07

1609

scrapy入门，以及案例

Python3.10 异步编程 asyncio request异步爬取

m0_61634551的博客

06-11

4434

协程不是计算机提供,程序员人为创造。协程(Coroutine),也可以被称为微线程,是一种用户态内的上下文切换技术。简而言之,其实就是通过一个线程实现代码块相互切换执行。实现协程有这么几种方法： greenlet 早期模块。 yield 关键字。 asyncio 装饰器 (py3.4) async、await关键字(py3.5)【推荐】...............

优雅地处理不同响应码的异步请求

迷心兔的博客

12-16

368

urls.txt 文件 https://regex101.com/ https://docs.python.org/3/this-url-will-404.html https://www.nytimes.com/guides/ https://www.mediamatters.org/ https://1.1.1.1/ https://www.politico.com/tipsheets/mo...

scrapy命令和项目调试-scrapy框架4-python

gaogzhen的博客

02-26

1398

文章目录1、scrapy命令2、项目调试2.1、shell控制台调试2.2、parse命令2.3、日志在编写项目的时候，需要不断的调试代码。同时频繁大量的请求目标网站，可能触发一些安全策略，比如屏蔽IP等等。这时，需要掌握一些调试技巧。在这之前，先了解一些scrapy命令。 1、scrapy命令 scrapy命令分2类：全局命令和项目命令。 # 查看用法帮助和可用的命令 scrapy scrapy -h # 查看某个命令的详细信息 scrapy <command> -h 全局命令：

Scrapy 提示错误 DEBUG: Crawled (403) ＜GET https://book.douban.com/top250＞ (referer: None)

weixin_72711583的博客

01-19

1478

运行scrapy有红色提示

scrapy shell 实践 | 交互式爬虫

01-07

C:\Users\32310>scrapy shell https://www.taobao.com/tbhome/page/special-markets 2020-02-19 16:01:34 [scrapy.utils.log] INFO: Scrapy 1.7.4 started (bot: scrapybot) 2020-02-19 16:01:34 [scrapy.utils.log...

爬虫scrapy入门体验

12-22

爬虫scrapy入门体验安装scrapy pip install scrapy 如果需要安装C++，可以先下载安装twisted:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted(选择对应的python版本)。创建项目需要在项目根目录下，如D:\...

使用Scrapy抓取职位招聘数据-爬虫python代码

06-12

基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化。环境安装配置建议直接安装anconda，然后git clone后进入项目目录，执行pip install -r requirements.txt ...

scrapy爬虫实例分享

01-21

然后用下面的命令打开scrapyshell。 scrapy shell http://www.budejie.com/text/ 稍加分析即可得到我们要获取的数据，在介绍scrapy的第一篇文章中我就写过一次了。这次就给上次那个爬虫加上一个翻页功能。要获取的...

最新Scrapy爬虫框架

10-31

2、Scrapy Shell以及Scrapy Selectors的使用。 3、使用Scrapy完成网站信息的爬取。主要知识点：创建Scrapy项目(scrapy startproject)、定义提取的结构化数据(Item)、编写爬取网站的 Spider 并提取出结构化数据...

Scrapy & CrawlSpider

weixin_42364929的博客

02-21

833

CrawlSpider 是 Scrapy 框架提供的一个特殊的 Spider 类型，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能，其中最显著的功能就是”LinkExtractors链接提取器“。在Scrapy中Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页。CrawlSpider 是基于广度优先算法构建的，可以自动发现并跟踪网页上的链接，并根据预定义的规则提取数据，用于处理那些需要遵循特定规则和链接提取的网站。

07.django日志配置

keocce的博客

05-23

147

https://docs.djangoproject.com/en/3.0/topics/logging/ https://yiyibooks.cn/xx/python_352/library/logging.html#logger-objects https://docs.python.org/3/library/logging.html#logrecord-attributes https://yiyibooks.cn/xx/python_352/library/logging.handle...

基于scrapy框架的单机爬虫与分布式爬虫

Jesse_Kyrie的博客

02-17

1303

基于scrapy开发爬虫，实现基础爬虫，分页爬虫，多级爬虫等功能，并使用scrapy_redis改写为分布式爬虫。

Scrapy shell

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交