scrapy 断点续爬在setting中的配置项

最新推荐文章于 2024-08-05 20:06:05 发布

红山1206

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量2.1k

点赞数 1

分类专栏： scrapy

本文链接：https://blog.csdn.net/weixin_44461123/article/details/98478256

版权

在Scrapy.Redis中实现断点续爬，关键在于设置重复过滤器、调度器和RedisPipeline。需要在settings.py中配置RFPDupeFilter以加密请求对象，使用scrapy_redis调度器确保请求队列的管理和去重，并通过RedisPipeline将数据保存到Redis。request对象入队的条件包括：指纹不在去重集合中、dont_filter为True或来自start_urls。

摘要由CSDN通过智能技术生成

在scrapy_redis中,如果需要断点续爬,我们需要在setting配置文件中,添加如下配置:

#----1 设置重复过滤器的模块

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#----2 设置调取器，scrap_redis中的调度器具备与数据库交互的功能

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#----3 设置当爬虫结束的时候是否保持redis数据库中的去重集合与任务队列

SCHEDULER_PERSIST = True

#----4 在管道中设置将数据保存到redis数据库中

ITEM_PIPELINES =  
    # 当开启该管道，该管道将会把数据存到Redis数据库中
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

#----5 配置redis数据库

REDIS_URL = "redis://127.0.0.1:6379"

从settings.py中的三个配置来进行分析分别是：

RedisPipeline  # 管道类
RFPDupeFilter  # 指纹去重类
Scheduler  # 调度器类
SCHEDULER_PERSIST  # 是否持久化请求队列和指纹集合

Scrapy_redis之RedisPipe

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

红山1206

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫手记(scrapy实现断点续爬，文章重点在设置)使用scrapy_redis

qq_41880168的博客

10-20

3万+

爬虫手记（断点续爬）安装reids数据库安装scrapy 安装scrapy_redis 以上自行解决。创建项目 scrapy startprogect commit_spider 进入commit_spider目录 scrapy genspider myspider nvd.nist.gov nvd.nist.gov是所要爬取网站的根域名修改settings.py ROBOTSTXT_OBEY = True PROXY_LIST = [ {"ip_port": "http://211.

python爬虫进阶之scrapy的暂停与重启

最新发布

又逢乱世

08-05

1923

Scrapy是什么、创建Scrapy项目、配置请求头、配置管道、数据建模

scrapy-redis断点续爬，持久化爬虫和url去重，爬取京东图书

weixin_42304193的博客

06-17

3334

scrapy scrapy框架是专门为python爬虫所设计的框架，它可以实现多线程爬虫，异步请求运行，虽然不用scrapy框架也可以实现多线程爬虫，但是功能非常的鸡肋，也比较麻烦，而scrapy就可以很简单的实现了多线程爬虫，还有许多强大的功能，不懂的也可以取scrapy中文网上面了解 https://yiyibooks.cn/zomin/Scrapy15/index.html scrapy-r...

Scrapy爬取美女图片续集 (原创)

七夜的博客

04-30

403

　　上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片，而今天接着讲解Scrapy爬取美女图片，不过采取了不同的方式和代码实现，对Scrapy的功能进行更深入的运用。（我的新书《Python爬虫开发与项目实战》出版了，大家可以看一下样章）　　在学习Scrapy官方文档的过程中，发现Scrapy自身实现了图片和文件的下载功能，不需要咱们之前自己实现图片的...

scrapy分布式、断点续连爬虫开发框架RedisSpider使用教程

云霄IT的博客

07-18

454

使用RedisSpider为继承父类，添加redis_key。项目settings.py文件增加下面代码即可。

scrapy知网专利爬虫

04-05

使用Scrapy框架开发爬取中国知网专利信息的爬虫,...在Scrapy中,这些步骤可以通过Item、Spider、Pipeline等组件很好地实现。其中,Item定义了需要抓取的数据结构,Spider负责页面抓取和数据提取,Pipeline负责数据的存储

python知乎爬虫-断点续爬尝试

06-24

在本项目中，我们探讨的主题是“Python知乎爬虫-断点续爬尝试”。这个标题暗示我们将讨论如何利用Python编写爬虫来抓取知乎网站上的信息，并且特别强调了断点续爬这一功能，这意味着我们的爬虫将具有在中断后从上次...

scrapy redis配置文件setting参数详解

01-21

scrapy项目 setting.py #Resis 设置 #使能Redis调度器 SCHEDULER = 'scrapy_redis.scheduler.Scheduler' #所有spider通过redis使用同一个去重过滤器 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' ...

scrapy_redis原理分析并实现断点续爬以及分布式爬虫

qq_41810183的博客

02-03

767

request的指纹不在集合中request的dont_filter为True，即不过滤start_urls中的url地址会入队，因为他们默认是不过滤。

yelp mysql_Scrapy断点续爬实现抓取Yelp美食网站数据

weixin_39953740的博客

02-05

571

Scrapy是一个非常强大的爬虫框架，只需极少代码便可应付一个简单爬虫。但如果需要几十万几百万的数据量，中间一旦有中断，重新爬取则太浪费时间。本文介绍一种思路，结合mysql，实现断点重爬的方式。以国外美食网站Yelp为例，指定爬取香港的所有餐厅信息：餐厅名称、地址、评价等信息。任务分析首先我们找到Yelp香港餐厅的列表页面，这个页面是我们的起始页面，对我们有用的信息为：餐厅列表和跳转页码。列表页...

Python-可以断点续爬的豆瓣单线程图书爬虫

08-10

可以断点续爬的豆瓣单线程图书爬虫

python 断点续爬_scrapy爬虫之断点续爬和多个spider同时爬取

weixin_30866939的博客

02-19

712

from scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_settings#断点续爬scrapy crawl spider_name -s JOBDIR=crawls/spider_name#运行命令scrapy crawlallclass Command(ScrapyCommand)...

Python爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫

不一样的花朵的博客

09-26

1306

scrapy_redis原理分析并实现断点续爬以及分布式爬虫学习目标了解 scrapy实现去重的原理了解 scrapy中请求入队的条件掌握 scrapy_redis基于url地址的增量式单机爬虫掌握 scrapy_redis分布式爬虫 1. 下载github的demo代码 clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-redis.git 研究项目自带的demo mv scrapy-r

Scrapy_redis框架原理分析并实现断点续爬以及分布式爬虫

IT之一小佬的博客

12-28

1457

爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫 1. 下载github的demo代码 clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-redis.git 研究项目自带的demo mv scrapy-redis/example-project ~/scrapyredis-project 2. 观察dmo

python 断点续爬_Spider-scrapy断点续爬

weixin_39851048的博客

12-21

889

scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一：1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行)2、在scrapy项目里创建保存记录信息的文件夹3、执行命令：scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径如：scra...

python scrapy_redis 解决断点续爬时request请求为空, 再次启动时爬取失败办法

一勺菠萝丶的博客

05-12

1024

如果在使用scrapy进行断点续爬的时候正好request中没有要爬取的链接了, 这个时候如果直接启动爬虫项目则会续爬失败, 达不到断点续爬的目的, 为此经过测试得出解决办法注意点一需要在次启动程序时候, 当作新的一个请求, 从新往redis中设置start_url值, 但此时需要注意, 翻页的时候就得添加dont_filter=True, 因为如果不加scrapy会自动进行去重请求, 假如翻页的这几个链接已经被爬取过了, 当从头跑的时候, 经过去重集合去重, 会认为所有的页码都已经爬取过了, 然后爬

scrapy 断点续爬

weixin_30834783的博客

02-14

540

第一步：安装berkeleydb数据库第二部：pip install bsddb3 第三部：pip install scrapy-deltafetch 第四部： settings.py设置 SPIDER_MIDDLEWARES = {‘scrapy_deltafetch.DeltaFetch’: 100} DELTAFETCH_ENABLED = True...

scrapy crawl myspider -n如何在setting中配置

04-25

您可以按照以下步骤在Scrapy的settings.py文件中配置： 1. 在settings.py文件中定义一个变量： NEWSPIDER_MODULE = 'your_project_name.spiders' 2. 按照下面的格式为您的spider定义一个pipeline： ITEM_...

scrapy 断点续爬 在setting中的配置项

在scrapy_redis中,如果需要断点续爬,我们需要在setting配置文件中,添加如下配置:

Scrapy_redis之RedisPipe

scrapy 断点续爬在setting中的配置项