Python学习- 爬虫 - 队列/消息队列

最新推荐文章于 2024-04-21 08:16:18 发布

Python_魔力猿

最新推荐文章于 2024-04-21 08:16:18 发布

阅读量159

点赞数

文章标签： python 学习爬虫

本文链接：https://blog.csdn.net/weixin_68789096/article/details/133632703

版权

请求管理业务

请求去重管理:防止重复请求。(可以布隆过滤器)
请求缓冲管理:临时存储请求
- 常用数据结构：队列 Queue（常用）, 列表，字典，元组
请求调度管理:派遣并控制请求调度顺序，请求优先级管理
- 请求调度优先级
  - 广度优先（FIFO队列）
  - 深度优先（LIFO队列）
  - 权重优先（优先级队列）

为什么有这么多的队列？因为每个队列一般都和异步模型，多线程，多进程通信用的，由于每个异步模型，在底层实现的原理不同，所以通信的时候处理方式有不同，所以会有多个队列模块。但每个队列模块，api基本一样

scrapy - queuelib 队列（硬盘中 disk_queue），基于
1. 有基于文件 sqlite 的持久化
pyspider - redis_queue 模块
1. 基于 redis 的队列
  1. fifo队列用 lists 列表，lpush,rpop
  2. lifo队列用 lists 列表，lpush，lpop
  3. 优先级队列，用 Sorted Set 有序集合，zadd ，zrang ，zrem

使用了锁机制后，能确保在同一份数据只会被某一个线程获取到，而不会被多个线程同时获取，从而保证了数据不会被处理多次的情况发生 2.此处相当于实现了同一个线程内部zrange与zrem是一个原子性操作

关注