Redis原理篇

最新推荐文章于 2024-10-16 20:17:21 发布

JuneQS

最新推荐文章于 2024-10-16 20:17:21 发布

阅读量2.7k

点赞数 4

分类专栏： java redis 文章标签： redis java 数据结构

本文链接：https://blog.csdn.net/weixin_46925850/article/details/129306546

版权

本文详细探讨了Redis的数据结构，包括 SDS、intset、ZipList、Listpack、QuickList、SkipList 和 RedisObject，以及Redis的网络模型，如阻塞IO、非阻塞IO、IO多路复用（select、poll、epoll）和信号驱动。此外，还介绍了Redis的内存回收策略，包括过期key处理和内存淘汰策略。文章深入解析了Redis的单线程模型和多线程网络模型的演变。最后，简要提到了Redis的通信协议RESP。

摘要由CSDN通过智能技术生成

Redis原理篇

源码链接：redis/redis: Redis is an in-memory database that persists on disk. The data model is key-value, but many different kind of values are supported: Strings, Lists, Sets, Sorted Sets, Hashes, Streams, HyperLogLogs, Bitmaps. (github.com)

1、原理篇-Redis数据结构

在这里插入图片描述

简单动态字符串 sds.c
整数集合 intset.c
压缩列表 ziplist.c
快速链表 quicklist.c
紧凑列表 listpack.c
字典 dict.c
查看结构两个命令
- type xx
- object encoding xx

1.0 从 dictEntry到RedisObject

dictEntry
redisObject

1.1 SDS

为什么自建字符串，因为C语言字符串存在很多问题：

获取字符串长度的需要通过运算

非二进制安全

不可修改

int：保存long 型(长整型)的64位(8个字节)有符号整数
embstr：长度小于44个字节
raw：大于44个字节

扩容

例如，一个包含字符串“name”的sds结构如下：

1653984648404

SDS之所以叫做动态字符串，是因为它具备动态扩容的能力，例如一个内容为“hi”的SDS：

1653984787383

假如我们要给SDS追加一段字符串“,Amy”，这里首先会申请新内存空间：

如果新字符串小于1M，则新空间为扩展后字符串长度的两倍+1；

如果新字符串大于1M，则新空间为扩展后字符串长度+1M+1。称为内存预分配。

1653984822363

结构

1.2 intset

set_max_intset_entries “512” 整数集合最大数量

IntSet是Redis中set集合的一种实现方式，基于整数数组来实现，并且具备长度可变、有序等特征。
结构如下：

1653984923322

其中的encoding包含三种模式，表示存储的整数大小不同：

1653984942385

为了方便查找，Redis会将intset中所有的整数按照升序依次保存在contents数组中，结构如图：

现在，数组中每个数字都在int16_t的范围内，因此采用的编码方式是INTSET_ENC_INT16，每部分占用的字节大小为：
encoding：4字节
length：4字节
contents：2字节 * 3 = 6字节

我们向该其中添加一个数字：50000，这个数字超出了int16_t的范围，intset会自动升级编码方式到合适的大小。
以当前案例来说流程如下：

升级编码为INTSET_ENC_INT32, 每个整数占4字节，并按照新的编码方式及元素个数扩容数组
倒序依次将数组中的元素拷贝到扩容后的正确位置
将待添加的元素放入数组末尾
最后，将inset的encoding属性改为INTSET_ENC_INT32，将length属性改为4

源码如下：

小总结：

Intset可以看做是特殊的整数数组，具备一些特点：

Redis会确保Intset中的元素唯一、有序
具备类型升级机制，可以节省内存空间
底层采用二分查找方式来查询

1.3 dict&dictht&dictEntry

结构：Redis6&7存在不同

在Redis6.x中，所谓的hash解结构其实是由三部分组成的哈希表（DictHashTable）、哈希节点（DictEntry）、字典（Dict）

1653985396560

当我们向Dict添加键值对时，Redis首先根据key计算出hash值（h），然后利用 h & sizemask来计算元素应该存储到数组中的哪个索引位置。我们存储k1=v1，假设k1的哈希值h =1，则1&3 =1，因此k1=v1要存储到数组角标1位置。

1653985497735

Dict由三部分组成，分别是：哈希表（DictHashTable）、哈希节点（DictEntry）、字典（Dict）

在Redis7.0.8中，hash结构稍微发生了变化，如下图所示：

砍掉了中间的 dictht 结构

Dict的扩容

Dict中的HashTable就是数组结合单向链表的实现，当集合中元素较多时，必然导致哈希冲突增多，链表过长，则查询效率会大大降低。
Dict在每次新增键值对时都会检查负载因子**（LoadFactor = used/size）** ，满足以下两种情况时会触发哈希表扩容：
哈希表的 LoadFactor >= 1，并且服务器没有执行 BGSAVE 或者 BGREWRITEAOF 等后台进程；
哈希表的 LoadFactor > 5 ；

1653985716275

1653985743412

Dict的rehash

不管是扩容还是收缩，必定会创建新的哈希表，导致哈希表的size和sizemask变化，而key的查询与sizemask有关。因此必须对哈希表中的每一个key重新计算索引，插入新的哈希表，这个过程称为rehash。过程是这样的：

计算新hash表的realeSize，值取决于当前要做的是扩容还是收缩：
- 如果是扩容，则新size为第一个大于等于dict.ht[0].used + 1的2^n
- 如果是收缩，则新size为第一个大于等于dict.ht[0].used的2^n （不得小于4）
按照新的realeSize申请内存空间，创建dictht，并赋值给dict.ht[1]
设置dict.rehashidx = 0，标示开始rehash
将dict.ht[0]中的每一个dictEntry都rehash到dict.ht[1]
将dict.ht[1]赋值给dict.ht[0]，给dict.ht[1]初始化为空哈希表，释放原来的dict.ht[0]的内存
将rehashidx赋值为-1，代表rehash结束
在rehash过程中，新增操作，则直接写入ht[1]，查询、修改和删除则会在dict.ht[0]和dict.ht[1]依次查找并执行。这样可以确保ht[0]的数据只减不增，随着rehash最终为空

整个过程可以描述成：

1653985824540

小总结：

Dict的结构：

类似java的HashTable，底层是数组加链表来解决哈希冲突
Dict包含两个哈希表，ht[0]平常用，ht[1]用来rehash

Dict的伸缩：

当LoadFactor大于5或者LoadFactor大于1并且没有子进程任务时，Dict扩容
当LoadFactor小于0.1时，Dict收缩
扩容大小为第一个大于等于used + 1的2^n
收缩大小为第一个大于等于used 的2^n
Dict采用渐进式rehash，每次访问Dict时执行一次rehash
rehash时ht[0]只减不增，新增操作只在ht[1]执行，其它操作在两个哈希表

1.4 ZipList

ZipList 是一种特殊的“双端链表” ，由一系列特殊编码的连续内存块组成。可以在任意一端进行压入/弹出操作, 并且该操作的时间复杂度为 O(1)。

ZipListEntry

ZipList 中的Entry并不像普通链表那样记录前后节点的指针，因为记录两个指针要占用16个字节，浪费内存。而是采用了下面的结构：

1653986055253

previous_entry_length：前一节点的长度，占1个或5个字节。
- 如果前一节点的长度小于254字节，则采用1个字节来保存这个长度值
- 如果前一节点的长度大于等于254字节，则采用5个字节来保存这个长度值，第一个字节为0xfe，后四个字节才是真实长度数据
encoding：编码属性，记录content的数据类型（字符串还是整数）以及长度，占用1个、2个或5个字节
contents：负责保存节点的数据，可以是字符串或整数

ZipList中所有存储长度的数值均采用小端字节序，即低位字节在前，高位字节在后。例如：数值0x1234，采用小端字节序后实际存储值为：0x3412

Encoding编码

ZipListEntry中的encoding编码分为字符串和整数两种：
字符串：如果encoding是以**“00”、“01”或者“10”**开头，则证明content是字符串

编码	编码长度	字符串大小
\|`00`pppppp\|	1 bytes	<= 63 bytes
\|`01`pppppp\|qqqqqqqq\|	2 bytes	<= 16383 bytes
\|`10`000000\|qqqqqqqq\|rrrrrrrr\|ssssssss\|tttttttt\|	5 bytes	<= 4294967295 bytes

例如，我们要保存字符串：“ab”和 “bc”

1653986172002

ZipListEntry中的encoding编码分为字符串和整数两种：

整数：如果encoding是以“11”开始，则证明content是整数，且encoding固定只占用1个字节

编码	编码长度	整数类型
`11`000000	1	int16_t（2 bytes）
`11`010000	1	int32_t（4 bytes）
`11`100000	1	int64_t（8 bytes）
`11`110000	1	24位有符整数(3 bytes)
`11`111110	1	8位有符整数(1 bytes)
`11`11xxxx	1	直接在xxxx位置保存数值，范围从0001~1101，减1后结果为实际值

1653986282879

1653986217182

ZipList的连锁更新问题

ZipList的每个Entry都包含previous_entry_length来记录上一个节点的大小，长度是1个或5个字节：
如果前一节点的长度小于254字节，则采用1个字节来保存这个长度值
如果前一节点的长度大于等于254字节，则采用5个字节来保存这个长度值，第一个字节为0xfe，后四个字节才是真实长度数据
现在，假设我们有N个连续的、长度为250~253字节之间的entry，因此entry的previous_entry_length属性用1个字节即可表示，如图所示：

1653986328124

ZipList这种特殊情况下产生的连续多次空间扩展操作称之为连锁更新（Cascade Update）。新增、删除都可能导致连锁更新的发生。

小总结：

ZipList特性：

压缩列表的可以看做一种连续内存空间的"双向链表"
列表的节点之间不是通过指针连接，而是记录上一节点和本节点长度来寻址，内存占用较低
如果列表数据过多，导致链表过长，可能影响查询性能
增或删较大数据时有可能发生连续更新问题

1.5 Listpack

1.6 QuickList

Redis6

以下是Redis6及以下的Quicklist示意图

1653986474927

注意：在大数据量情况下node会变成 linkedlist，阈值在和Redis7是一样的，下文有讲

在Redis6，以下是QuickList的和QuickListNode的结构源码：

1653986667228

我们接下来用一段流程图来描述当前的这个结构

1653986718554

总结：

QuickList的特点：

是一个节点为ZipList的双端链表
节点采用ZipList，解决了传统链表的内存占用问题
控制了ZipList大小，解决连续内存空间申请效率问题
中间节点可以压缩，进一步节省了内存，控制参数：list-compress-depth
- 0 特殊值，不压缩
- 1 首位各不压缩1个节点，中间节点全部压缩
- 2 首位各不压缩2个节点，中间节点全部压缩