scrapy 插件scrapy-redis 正确用法，秒变分布式

最新推荐文章于 2024-08-09 08:34:53 发布

walk_on_os

最新推荐文章于 2024-08-09 08:34:53 发布

阅读量242

点赞数

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_43746424/article/details/119179751

版权

python 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

scrapy 插件
首先安装

pip install scrapy-redis

然后在 setting.py加上几句话

#可选
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#可选  调度持久化
SCHEDULER_PERSIST = True
#可选  redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#可选  redis 全局状态统计
STATS_CLASS = "scrapy_redis.stats.RedisStatsCollector"
#配置
REDIS_URL = 'redis://:123456@127.0.0.1:6379'
REDIS_ENCODING = "utf-8"

ok，运行起来就是分布式爬虫了。
如果只需要使用 redis 去重那么注释掉 SCHEDULER 。
建议 python3.8 以上，都什么年代了还 3.6

python低版本会出现 pickle 错误的问题，
需要修改 scrapy-redis 源码
首先安装 pickle5

pip install pickle5

在 scrapy-redis 源码文件picklecompat.py中

try:
    import cPickle as pickle
except ImportError:
    import pickle5 as pickle

个人认为插件应该开箱即用，根据 scrapy-redis 的RedisSpider 重写需要改代码，大家见仁见智，不喜勿喷。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

walk_on_os

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Scrapy爬虫框架搭建及pycharm中scrapy插件配置

Captain72的博客

08-01

1517

Scrapy爬虫框架搭建Scrapy爬虫框架简介Scrapy安装功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 Scr...

Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)

zylaixsj的博客

07-11

812

Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)

参与评论您还未登录，请先登录后发表或查看评论

Scrapy爬虫-必备插件

weixin_30823001的博客

09-25

141

必备插件： lxml, an efficient XML and HTML parser parsel, an HTML/XML data extraction library written on top of lxml w3lib, a multi-purpose helper for dealing with URLs and web page encodings twisted, ...

探索分布式爬虫的新境界：Scrapy-Redis 深度解析

最新发布

gitblog_00334的博客

08-09

763

探索分布式爬虫的新境界：Scrapy-Redis 深度解析 scrapy-redis项目地址:https://gitcode.com/gh_mirrors/scr/scrapy-redis 在数据挖掘与网络爬虫的领域中，效率与扩展性是两个永远的主题。为此，我们来深入探讨一个开源宝藏——Scrapy-Redis，它是专为Scrapy框架设计的Redis插件，以其独特的功能和灵活性，在大规模数据抓取...

scrapy 改 scrapy-redis

anbingzhong1132的博客

05-27

410

1.spider 修改 class CgysSpider(scrapy.Spider): name = 'clispider' start_urls = ['https://search.bilibili.com/all?keyword=%E6%A9%99%E6%9E%9C%E5%8C%BB%E7%94%9F'] # 改成 from scrapy_redis...

scrapy插件安装

落叶的博客

06-23

381

pip install pywin32 1、安装wheel pip install wheel 2、安装lxml https://pypi.python.org/pypi/lxml/4.1.0 3、安装pyopenssl https://pypi.python.org/pypi/pyOpenSSL/17.5.0 4、安装Tw...

将scrapy项目变成一个scrapy-redis项目

******* ▄︻┻┳═一 *******

04-05

1490

crapy-redis 官网和github地址官网地址：https://scrapy-redis.readthedocs.org github地址：https://github.com/rmax/scrapy-redis 一、scrapy-redis说明由于 scrapy 是不支持分布式的，为了加快爬虫速度，需要多台机器同时爬取目标url并且同时从url中抽取数据，让N台机器做一模一样的事，通...

python爬虫基础知识原理及Scrapy框架以及scrapy-redis分布式策略入门知识.zip

05-15

而 scrapy-redis 是一个基于 Scrapy 的分布式爬虫组件，它使用 Redis 数据库来存储爬虫的请求队列和去重指纹，以实现多个爬虫实例之间的协同工作，从而实现分布式爬虫。使用 scrapy-redis 可以帮助你构建能够跨多...

scrapy-redis-master_scrapy-redis_juzi1122_scrapy_

10-01

Scrapy-Redis是一个基于Scrapy的分布式爬虫框架，它扩展了Scrapy的功能，使其能够处理大规模的网络抓取任务。Scrapy是一个流行的Python爬虫框架，而Scrapy-Redis则是将其与Redis数据库结合，利用Redis作为数据队列，...

Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip

06-08

Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip 该项目代码主要针对计算机、自动化等相关专业的学生从业者下载使用，项目代码都经过严格调试，确保可以运行！放心下载使用。也可作为期末课程设计、...

Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计完整

10-08

程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，...

Python的Scrapy库及其需要的插件

09-16

本软件包用于安装Python爬虫框架开发所需要的Scrapy库，同时包括安装Scrapy安装所需要的setuptools、zope interface、PyOpenSSL、Twisted等

scrapy-redis：Scrapy的基于Redis的组件

02-18

Scrapy-Redis Scrapy的基于Redis的组件。免费软件：MIT许可证文档： : 。 Python版本：2.7、3.4+ 特征 分布式抓取/抓取您可以启动共享单个redis队列的多个蜘蛛实例。最适合广泛的多域爬网。 分布式后处理报废的项目将被放入Redis队列中，这意味着您可以启动所需的共享项目队列的后处理流程。轻巧的即插即用组件计划程序+复制过滤器，项目管道，基本蜘蛛网。笔记此功能涵盖了在多个工作人员之间分配工作负载的基本情况。如果您需要更多功能，例如URL到期，高级URL优先级设置等，我们建议您看一下项目。要求 Python 2.7、3.4或3.5 Redis> = 2.8 Scrapy > = 1.1 redis-py > = 2.10 用法在您的项目中使用以下设置： # Enables scheduling stori

将scrapy爬虫改造成scrapy-redis分布式爬虫

ljw1191670271的博客

08-04

617

scrapy-redis 的改造方法要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了： 1、导包：from scrapy_redis.spiders import RedisSpider 将爬虫的类从scrapy.Spider变成RedisSpider；或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。 2.将爬虫中的start_urls删掉。增加一个redis_key=“xxx”。这个re

[爬虫]3.4.3 Scrapy的中间件和扩展

Andy0214的专栏

07-24

5358

Scrapy是一个灵活的框架，你可以通过设置中间件和扩展来扩展其功能。在这个章节中，我们将深入了解Scrapy的中间件和扩展，并通过示例来解释它们的使用。

如何将scrapy项目转换成scrapy-redis分布式爬虫

牛犊不怕虎的博客

09-23

530

将爬虫继承的类从 scrapy.Spider 变成 scrapy_redis.spiders.RedisSpider（或者先import (from scrapy_redis.spiders import RedisSpider)）；或者是从 scrapy.CrawlSpider 变成 scrapy_redis.spiders.RedisCrawlSpider。将爬虫中的start_url...

爬虫-Scrapy (十一) 分布式爬虫 scrapy 转 scrapy-redis 详解

XiaoDao147258369的博客

03-01

375

安装scrapy-redis

scrapy-redis改造方法

super_man_ing的博客

08-30

725

scrapy-redis 的改造方法要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了： 1. 将爬虫的类从`scrapy.Spider`变成`scrapy_redis.spiders.RedisSpider`；或者是从`scrapy.CrawlSpider`变成`scrapy_redis.spiders.RedisCrawlSpider`。 2. 将爬...

scrapy-playwright 入门（爬虫教程）

YYSonic407的博客

06-01

2182

该插件只能在macOS和linux系统中使用。通过使用插件的playwright_page_event_handlers属性，完成事件监听。多使用搜索引擎，常看文档和源码，会对做项目有不错的帮助。

Scrapy-Redis分布式爬虫构建与原理详解

Scrapy-redis分布式爬虫搭建理论详解 Scrapy是一个功能强大的通用爬虫框架，但其本身并不支持分布式爬取。为了优化Scrapy的性能并实现分布式，Scrapy-redis应运而生。它提供了一套基于Redis的扩展组件，用于简化...