Redis的数据结构与对象

目录

目录

2 简单动态字符串

2.1 SDS的定义

2.2 SDS与C字符串的区别

2.3 SDS API

3 链表

3.1 链表和链表节点的实现

3.2 链表和链表节点的API

4 字典

4.1 字典的实现

4.2 哈希算法

4.3 解决键冲突

4.4 rehash

4.5 渐进式rehash 

4.6 字典API

4.7 重点回顾

5 跳跃表

5.1 跳跃表的实现

5.2 跳跃表API

5.3 重点回顾

6 整数集合

6.1 整数集合的实现

6.2 升级

6.3 升级的好处

6.4 降级

6.5 整数集合API

6.6 重点回顾

7 压缩列表

7.1 压缩列表的构成

7.2 压缩列表节点的构成

7.3 连锁更新

7.4 压缩列表API

7.5 重点回顾

8 对象 

8.1 对象的类型与编码

8.2 字符串对象 

8.3 列表对象 

8.4 哈希对象

8.5 集合对象

8.6 有序集合对象

8.7 类型检查和命令多态

8.8 内存回收

8.9 对象共享 

8.10 对象的空转时长 

8.11 重点回顾

参考用书 


2 简单动态字符串

Redis没有直接使用C语言传统的字符串表示,而是自己构建了一种名为简单动态字符串(simple dynamic string,SDS)的抽象类型,并将SDS用作Redis的默认字符串表示。

2.1 SDS的定义

SDS遵循C字符串以空字符结尾的惯例,保存空字符的1字节空间不计算在SDS的len属性里面,并且为空字符分配额外的1字节空间。

——遵循空字符结尾这一惯例的好处是,SDS可以直接重用一部分C字符串函数库里面的函数。 

2.2 SDS与C字符串的区别

2.2.1 常数复杂度获取字符串的长度

因为SDS在len属性中记录了SDS本身的长度,通过使用SDS而不是C字符串,Redis将获取字符串长度所需的复杂度从O(N)降低到了O(1)。

2.2.2 杜绝缓冲区溢出(buffer overflow)

缓冲区溢出:

与C字符串不同,SDS的空间分配策略完全杜绝了发生缓冲区溢出的可能性:当SDS API需要对SDS进行修改时,API会先检查SDS的空间是否满足修改所需的要求,如果不满足的话,API会自动将SDS的空间扩展至执行修改所需的大小,也不会出现前面所说的缓冲区溢出问题。 

2.2.3 减少修改字符串时带来的内存重分配次数

每次增长或者缩短一个C字符串,程序都总要对保存这个C字符串的数组进行一次内存重分配操作,而SDS有free属性,通过未使用空间,SDS实现了空间预分配惰性空间释放两种优化策略。

  • 空间预分配

当SDS的API对一个SDS进行修改,并且需要对SDS进行空间扩展的时候,程序不仅会为SDS分配修改所必须要的空间,还会为SDS分配额外的未使用空间

  • 惰性空间释放

当SDS的API需要缩短SDS保存的字符串时,程序并不立即使用内存重分配来回收缩短后多出来的字节,而是使用free属性将这些字节的数量记录起来,并等待将来使用。

2.2.4 二进制安全

C字符串的字符必须符合某种编码(比如ASCII),并且处理字符串的末尾之外,字符串里面不能包含空字符,这些限制使得C字符串只能保存文本数据,而不能保存像图片、音频、视频、压缩文件这样的二进制数据。

而SDS使用len属性的值而不是空字符来判断字符串是否结束,使得Redis不仅可以保存文本数据,还可以保存任意格式的二进制数据。

2.2.5 兼容部分C字符串函数

因为SDS遵循C字符串以空字符结尾的惯例,故SDS可以重用一部分<string.h>库定义的函数。

2.2.6 总结 

C字符串和SDS之间的区别

2.3 SDS API


3 链表

列表键的底层实现之一就是链表

3.1 链表和链表节点的实现

 

 Redis的链表实现的特性可以总结如下:

  • 双端:链表节点带有prev和next指针,获取某个节点的前置节点和后置节点的复杂度都是O(1)
  • 无环:表头点的prev指针和表尾节点的next指针都指向NULL,对链表的访问以NULL为终点
  • 带表头指针和表尾指针:通过list结构的head指针和tail指针,程序获取链表的表头节点和表尾节点的复杂度为O(1)
  • 带链表长度计数器:程序使用list结构的len属性来对list持有的链表节点进行计数,程序获取链表节点数量的复杂度为O(1)
  • 多态:链表节点使用void*指针来保存节点值,并且可以通过list结构的dup、free、match三个属性为节点值设置类型特定函数,所以链表可以用于保存各种不同类型的值

3.2 链表和链表节点的API

 


4 字典

又称为符号表(symbol table)关联数组(associative array)映射(map),是一种用于保存键值对(key-value pair)的抽象数据结构。

字典在Redis中的应用相当广泛,比如Redis的数据库就是使用字典来作为底层实现的,对数据库库的增、删、查、改操作也是构建在对字典的操作之上的。

出来用在标识数据库之外,字典还是哈希键的底层实现之一。

4.1 字典的实现

Redis的字典使用哈希表作为底层实现,一个哈希表里面可以有多个哈希表节点,而每个哈希表节点就保存了字典中的一个键值对。

4.1.1 哈希表

4.1.2 哈希表节点

 

4.1.3 字典 

4.2 哈希算法

Redis使用的是MurmurHash2算法来计算键的哈希值。

4.3 解决键冲突

Redis的哈希表使用链地址法(separate chaining)来解决键冲突。

因为dictEntry节点组成的链表没有指向链表表尾的指针,所以为了速度考虑,程序总是将新节点添加到链表的表头位置(复杂度为O(1))。

4.4 rehash

随着操作的不断执行,哈希表保存的键值对会逐渐地增多或者减少,为了让哈希表的负载因子(load factor)维持在一个合理的范围之内,当哈希表保存的键值对数量太多或者太少时,程序需要对哈希表的大小进行相应的扩展或者收缩

扩展和收缩哈希表的工作可以通过执行rehas(重新散列)操作来完成,Redis对字典的哈希表执行rehash的步骤如下:

4.5 渐进式rehash 

扩展或收缩哈希表需要将ht[0]里面的所有键值对rehash到ht[1]里面,但是,这个rehash动作并不是一次性、集中式地完成的,而是分多次渐进式地完成的。

这样做的原因在于,如果哈希表里保存的键值对数量庞大,一次性rehash的话,庞大的计算量可能会导致服务器在一段时间内停止服务。

4.6 字典API

4.7 重点回顾

  •  字典被广泛用于实现Redis的各种功能,其中包括数据库和哈希键
  • Redis中的字典使用哈希表作为底层实现,每个字典带有两个哈希表,一个平时使用,另一个仅在进行rehash时使用
  • 当字典被用作数据库的底层实现,或者哈希键的底层实现时,Redis使用MurmurHash2算法来计算键的哈希值
  • 哈希表使用链地址法来解决键冲突,被分配到同一个索引上的多个键值对会连接成一个单向链表
  • 在对哈希表进行扩展或者收缩操作时,程序需要将现有哈希表包含的所有键值对rehash到新哈希表里面,并且这个rehash过程并不是一次性地完成的,而是渐进式地完成的

5 跳跃表

跳跃表(skiplist)是一种有序数据结构,它通过在每个节点中维持多个指向其他节点的指针,从而达到快速访问节点的目的。

Redis使用跳跃表作为有序集合键的底层实现之一。

Redis只在两个地方用到了跳跃表,一个是实现有序集合键,另一个是在集群节点中用作内部数据结构,除此之外,跳跃表在Redis里面没有其他用途

5.1 跳跃表的实现

5.1.1 跳跃表节点 

跳跃表节点的level数组可以包含多个元素,每个元素都包含一个指向其他节点的指针,程序可以通过这些层来加快访问其他节点的速度,一般来说,层的数量越多,访问其他节点的速度就越快。

每次创建一个新跳跃表节点的时候,程序都根据幂次定律(power law,越大的数出现的概率越小)随机生成一个介于1和32之间的值作为level数组的大小,这个大小就是层的“高度”。

  • 前进指针

每个层都有一个指向表尾方向的前进指针(level[i].forward属性),用于从表头向表尾方向访问节点。

  • 跨度

层的跨度(level[i].span属性)用于记录两个节点之间的距离

1)两个节点之间的跨度越大,它们相距得就越远。

2)指向NULL的所有前进指针的跨度都为0,因为它们没有连向任何节点。 

  • 后退指针

节点的后退指针(backward属性)用于从表尾向表头方向访问节点:跟可以一次跳过多个节点的前进指针不同,因为每个节点只有一个后退指针,所以每次只能后退至前一个节点。

  • 分值和成员

节点的分支(score属性)是一个double类型的浮点数,跳跃表中的所有节点都按分值从小到大来排序。

节点的成员对象(obj属性)是一个指针,它指向一个字符串对象,而字符串对象则保存着一个SDS值。

5.1.2 跳跃表

仅靠多个跳跃表节点就可以组成一个跳跃表,如图5-8所示。

但是通过使用一个zskiplist结构来持有这些节点,程序可以更方便地对整个跳跃表进行处理。

5.2 跳跃表API

5.3 重点回顾

  • 跳跃表是有序集合的底层实现之一。
  • Redis的跳跃表实现由zskiplist和zskiplistNode两个结构组成,其中zskiplist用于保存跳跃表信息(比如表头结点、表尾节点、长度),而zskiplistNode则用于表示跳跃表节点。
  • 每个跳跃表节点的层高都是1至32之间的随机数。
  • 在每一个跳跃表中,多个节点可以包含相同的分值,但每个节点的成员对象必须是唯一的。
  • 跳跃表中的节点按照分值大小进行排序,当分值相同时,节点按照成员对象的大小进行排序。

6 整数集合

整数集合(intset)是集合键的底层实现之一。

6.1 整数集合的实现

整数集合(intset)是Redis用于保存整数值的集合抽象数据结构,它可以保存类型为int16_t、int32_t、int64_t的整数值,并且保证集合中不会出现重复元素

图6-1展示了一个整数集合示例:

6.2 升级

每当我们要将一个新元素添加到整数集合里面,并且新元素的类型比整数集合现有所有元素的类型都要长时,整数集合需要先进行升级(upgrade),然后才能将新元素添加到整数集合里面。

升级整数集合并添加新元素共分为三步进行

1)根据新元素的类型,扩展整数集合底层数组的空间大小,并为新元素分配空间。

2)将底层数组现有的所有元素都转换成与新元素相同的类型,并将类型转换后的元素放置到正确的位上,并且在放置元素的过程种,需要继续维持底层数组的有序性质不变。

3)将新元素添加到底层数组里面。

6.3 升级的好处

整数集合的升级策略有两个好处,一个是提升整数集合的灵活性,另一个是尽可能地节约内存

6.4 降级

整数集合不支持降级操作,一旦对数组进行了升级,编码就一直保持升级后的状态。

6.5 整数集合API

6.6 重点回顾

  •  整数集合是集合键的底层实现之一。
  • 整数集合的底层实现为数组,这个数组以有序、无重复的方式保持集合元素,在有需要时,程序会根据新添加元素的类型,改变这个数组的类型。
  • 升级操作为整数集合带来了操作上的灵活性,并且尽可能地节约了内存。
  • 整数集合只支持升级操作,不支持降级操作。

7 压缩列表

压缩列表(ziplist)是列表键哈希键的底层实现之一。

7.1 压缩列表的构成

压缩列表是Redis为了节约内存而开发的,是由一系列特殊编码的连续内存块组成的顺序型(sequential)数据结构。一个压缩列表可以包含任意多个节点(entry),每个节点可以保存一个字节数组或者一个整数值。

7.2 压缩列表节点的构成

 7.2.1 previous_entry_length

节点的previous_entry_length属性以字节为单位,记录了压缩列表中前一个节点的长度。

7.2.2 encoding

节点的encoding属性记录了节点的content属性所保存数据的类型以及长度。

7.2.3 content

节点的content属性负责保存节点的值,节点值可以是一个字节数组或者整数,值的类型和长度由节点的encoding属性决定。

7.3 连锁更新

 Redis将这种在特殊情况下产生的连续多次空间扩展操作称之为“连锁更新”(cascade update)。

 除了添加新节点可能会引发连锁更新之外,删除节点也可能会引发连锁更新

7.4 压缩列表API

7.5 重点回顾

  • 压缩列表是一种为节约内存而开发的顺序型数据结构。
  • 压缩列表被用作列表键和哈希键的底层实现之一。
  • 压缩列表可以包含多个节点,每个节点可以保存一个字节数组或者整数值。
  • 添加新节点到压缩列表,或者从压缩列表中删除节点,可能会引发连锁更新操作,但这种操作出现的机率并不高。

8 对象 

在前面的数个章节里,我们陆续介绍了Redis用到的所有主要数据结构,比如简单动态字符串(SDS)、双端链表、字典、压缩列表、整数集合等等。

Redis并没有直接使用这些数据结构来实现键值对数据库,而是基于这些数据结构创建了一个对象系统,这个系统包含字符串对象列表对象哈希对象集合对象有序集合对象这五种类型的对象,每种对象都用到了至少一种我们前面所介绍的数据结构。

8.1 对象的类型与编码

Redis使用对象来表示数据库中的键与值,每次当我们在Redis的数据库中新创建一个键值对时,我们至少会创建两个对象,一个对象用作键值对的键(键对象),另一个对象用作键值对的值(值对象)

8.1.1 类型 

对象的type属性记录了对象的类型,这个属性的值可以是表8-1列出的常量的其中一个。

 8.1.2 编码和底层实现

对象的ptr指针指向对象的底层实现数据结构,而这些数据结构由对象的encoding属性决定。

8.2 字符串对象 

字符串对象的编码可以是int、raw或者embstr。

8.3 列表对象 

列表对象的编码可以是ziplist或者linkedlist。

8.4 哈希对象

哈希对象的编码可以是ziplist或者hashtable。

8.5 集合对象

集合对象的编码可以是intset或者hashtable。

8.6 有序集合对象

有序集合的编码可以是ziplist或者skiplist。

ziplist编码的有序集合对象使用压缩列表作为底层实现,每个集合元素使用两个紧挨在一起的压缩列表节点来保存,第一个节点保存元素的成员(member),而第二个元素则保存元素的分值(score)。

压缩列表内的集合元素按分值从小到大进行排序,分值越小的元素被放置在靠近表头的位置,而分值较大的元素则被放置在靠近表尾的位置。

skiplist编码的有序集合对象使用zset结构作为底层实现,一个zset结构同时包含一个字典和一个跳跃表。

值得一提的是,虽然zset结构同时使用跳跃表和字典来保存有序集合元素,但这两种数据结构都会通过指针来共享相同元素的成员和分值,所以同时使用跳跃表和字典来保存集合元素不会产生任何重复成员或者分值,也不会因此而浪费额外的内存。

8.7 类型检查和命令多态

Redis中用于操作键的命令基本上可以分为两种类型。

其中一种命令可以对任何类型的键执行,而另外一种命令只能对特定类型的键执行,比如说只能对字符串键、哈希键等类型的键执行。

8.7.1 类型检查的实现

8.7.2 多态命令的实现

 

8.8 内存回收

因为C语言并不具备自动内存回收功能,所以Redis在自己的对象系统中构建了一个引用计数(reference counting)技术实现的内存回收机制,通过这一机制,程序可以通过跟踪对象的引用计数信息,在适当的时候自动释放对象并进行内存回收。

8.9 对象共享 

除了用于实现引用计数内存回收机制之外,对象的引用计数属性还带有对象共享的作用。

共享对象机制对于节约内存非常有帮助,数据库中保存的相同值对象越多,对象共享机制就能节约越多的内存。

目前来说,Redis会在初始化服务器时,创建一万个字符串对象,这些对象包含了从0到9999的所有整数值,当服务器需要用到值为0到9999的字符串对象时,服务器就会使用这些共享对象,而不是新创建对象。

为什么Redis不共享包含字符串的对象?

尽管共享更复杂的对象可以节约更多的内存,但受到CPU时间的限制,Redis只对包含整数值的字符串对象进行共享。

8.10 对象的空转时长 

redisObject结构的最后一个属性为lru属性,该属性记录了对象最后一次被命令程序访问的时间。

OBJECT IDLETIME命令可以打印出给定键的空转时长,这一空转时长就是通过将当前时间减去键的值对象的lru时间计算得出的。

OBJECT IDLETIME命令的实现比较特殊,这个命令在访问键的值对象时,不会修改值对象的lru属性。

除了可以被OBJECT IDLETIME命令打印出来之外,键的空转时长还有另外一项作用:如果服务器打开了maxmemory选项,并且服务器用于回收内存的算法为volatile-lru或者allkeys-lru,那么当服务器占用的内存数超过了maxmemory选项所设置的上限值时,空转时长较高的那部分键会优先被服务器释放,从而回收内存

8.11 重点回顾

  • Redis数据库中的每个键值对的键和值都是一个对象。
  • Redis共有字符串、列表、哈希、集合、有序集合五种类型的对象,每种类型的对象至少都有两种或以上的编码方式,不同的编码可以在不同的使用场景上优化对象的使用效率。
  • 服务器在执行某些命令之前,会先检查给定键的类型能否执行指定的命令,而检查一个键的类型就是检查键的值对象类型。
  • Redis的对象系统带有引用计数实现的内存回收机制,当一个对象不再被使用时,该对象所占用的内存就会被释放。
  • Redis会共享值为0到9999的字符串对象。
  • 对象会记录自己的最后一次被访问的时间,这个时间可以用于计算对象的空转时间。

参考用书 

《Redis设计与实现》,作者黄健宏。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值