Marco's Java【Redis入门(四) 之 Redis的持久性详解】

最新推荐文章于 2023-08-14 13:02:53 发布

Marco Zheng

最新推荐文章于 2023-08-14 13:02:53 发布

阅读量319

点赞数

分类专栏： Redis 文章标签： Redis的持久性详解

本文链接：https://blog.csdn.net/weixin_44698119/article/details/100120043

版权

Redis 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前言

本节呢咱们重点关注在Redis的持久性上，因为内存数据库的数据都是在内存中被保存的，但在实际开发中，我们可能并不希望数据仅仅只是被保存在内存里面，而是像传统的MySQL，Oracle等关系型数据库直接将内容保存到硬盘中，因此Redis也为我们提供了持久化方式来满足我们的需求。
接下来，就让我们来深入了解一下Redis的持久化特性吧！

文章目录

Redis的持久性

说到持久性，就会想到传统的关系型数据库，例如Mysql中的概念ACID，ACID中的D(durability)说的就是数据的持久化特性，一旦数据录入到物理磁盘上就无法改变，当然Redis的持久性并不是完全是这个意思，但相同的是Redis的持久性同样就是通过将数据保存到文件，也就是物理磁盘上来实现的。

咱们再来看看官网对于Redis的持久性的解释，主要提到了了两个概念，一个是RDB持久性，一个是AOF持久性，这两者就是Redis的持久性实现的核心所在了，我们先简单来看一下官方对于RDB和AOF的介绍。

RDB持久化方式是按照指定的时间间隔来执行数据集时间点的快照，意思就是在指定的时间过后，RDB持久化机制会定时的拍摄快照，快照就是记录数据的一种方式，学习过VMware虚拟机的朋友应该知道，使用快照可以将之前的虚拟机的状态回档，RDB持久化方式也是一样的意思，相当于采用定时任务，记录数据，当服务器宕机或者重启时，将记录的数据恢复并使用。

而AOP和RDB持久化方式不一样的点在于它保存的不是数据，而是写入的操作指令，当服务器宕机或者重启时，Redis会重新执行被保存的文件中的指令，来达到恢复数据的功效！关于两者具体的细节部分我们会陆续讲到。
在这里插入图片描述
话说回来，Redis官网针对于它的持久性的讲解还是很全的，大家如果想了解的更深的话，查看官方文档 Redis Persistence 就好啦。

RDB持久化

RDB(Redis DataBase)是 Redis 默认的持久化方案。在指定的时间间隔内，执行指定次数的写操作，则会将内存中的数据写入到磁盘中。并且目录下生成dump.rdb文件。Redis 重启会通过加载·dump.rdb·文件恢复数据。

刚才我们也简单的提到了，RDB是将指定时间末的数据进行定时的存储，当然这里面还有个前提，就是数据被改变了。
在这里插入图片描述
其实在整个读取数据并创建dump.rdb文件的过程中，Redis会单独创建，更准确的来说是 fork 一个子进程来进行持久化，它会先将数据写入到一个temp临时文件中，等待持久化过程都结束了，再用这个临时文件替换上次持久化好的文件。
整个过程中，主进程是不进行任何IO操作的，这就确保了极高的性能，如果需要进行大规模数据的恢复，且对于数据恢复的完整性不是非常敏感，那RDB方式要比AOF方式更加的高效。例如对于一些大型的电商项目，很大程度上都是在读取数据，少部分数据丢失是可以被允许的，那么此时使用RDB方式会更加合适。
RDB唯一的缺点就是最后一次持久化后的数据可能会丢失。

小贴士
Fork的作用是复制一个与当前进程一样的进程。新进程的所有数据（变量、环境变量、程序计数器等）数值都和原进程一致，但是是一个全新的进程，并作为原进程的子进程

保存位置及配置位置

其实早在 Marco’s Java【Redis入门(二) 之 Redis的配置文件详解】中我们有提到过下面这个配置。我们再来回顾一下它所表达的意思。

save 900 1
保存数据到磁盘。格式是：save <seconds> <changes>，含义是在 seconds 秒之后至少有changes个keys 发生改变则保存一次。
如 save 900 1 900秒有一条数据改变就保存
save 300 10 300秒有10条数据改变就保存
save 60 10000 600秒有10000条数据改变就保存
主要针对于RDB持久化方式，生成dump.rdb文件，如果注释掉“save”这一行配置项就可以让保存数据库功能失效。

################################ SNAPSHOTTING  ################################
#
# Save the DB on disk:
#
#   save <seconds> <changes>
#
#   Will save the DB if both the given number of seconds and the given
#   number of write operations against the DB occurred.
#
#   In the example below the behaviour will be to save:
#   after 900 sec (15 min) if at least 1 key changed
#   after 300 sec (5 min) if at least 10 keys changed
#   after 60 sec if at least 10000 keys changed
#
#   Note: you can disable saving completely by commenting out all "save" lines.
#
#   It is also possible to remove all the previously configured save
#   points by adding a save directive with a single empty string argument
#   like in the following example:
#
#   save ""

save 900 1
save 300 10
save 60 10000

简单来说，save 900 1这个配置就相当于一个智能的定时器，前面的参数是设置的定时时间间隔，后面的参数就是给定时器设置的阈值，当被修改的数据的数量大于这个阈值时，Reids就会从主线程上fork出子线程，并且将数据写入临时文件中，等持久化结束，就和已经存在的dump.rdb文件做替换。

触发RDB快照很简单，只需要在Redis中执行修改数据的操作指令就可以了，注意，flushall操作也会生成dump.rdb文件，但里面的内容是空的。

127.0.0.1:6379> auth 123456
OK
127.0.0.1:6379> set hero spiderman
OK
127.0.0.1:6379> set hero ironmen
OK
[root@localhost bin]# ls
dump.rdb  redis-check-rdb  redis-server
redis-benchmark  redis-cli redis-check-aof  redis-sentinel

很显然，退出之后，dump.rdb文件已经生成了。当然里面的内容都已经被转化成二进制数据了，所以看到的都是乱码。

恢复数据

那么我们如何使用dump.rdb恢复数据呢？操作其实很简单，只需要将备份文件dump.rdb移动到 redis 安装目录并启动服务即可。那我们接下来做个小实验，先将dump.rdb转移到别的目录去

mv dump.rdb /root/

此时没有备份的数据肯定是访问不到的，接着我们再将dump.rdb重新迁移到/usr/local/reids/bin目录下，通过以下指令可以获取dump.rdb文件所在的目录

127.0.0.1:6379> config get dir
1) "dir"
2) "/usr/local/redis/bin"

此时我们再执行get name获取数据的操作，就可以啦

127.0.0.1:6379> get name
"marco"

RDB的优缺点

优点	缺点
适合大规模的数据恢复	在一定间隔时间做一次备份，所以如果redis意外down掉的话，就会丢失最后一次快照后的所有修改
对数据完整性和一致性要求不高	Fork的时候，此时内存中的数据被克隆了一份，因此大致2倍的膨胀性需要纳入考虑范畴

AOF持久化

上面我们提到了RDB是将整个内存中的数据进行保存，而AOF是通过保存对redis服务端的写命令来记录数据库状态的，即保存你对redis数据库的写操作。
AOF的运作方式是不断的将写命令追加到aof文件的末尾，因此随着写入命令的不断增加，AOF的文件体积也会变得越来越大。当Redis启动的时候会自动读取该文件并重新构建数据，换言之，Redis重启的话会根据日志文件的内容将之前被保存的写指令从前到后执行一次以完成数据的恢复工作。Redis调用write写入后，何时调用fsync将其写到磁盘上，是通过appendfsync来控制的。
在这里插入图片描述
注意了，AOF持久化仅仅只针对于写操作，因此当我们执行读操作，如上图的keys *时，是不会记录到aof文件中去的。

保存位置及配置位置

############################## APPEND ONLY MODE ###############################

# By default Redis asynchronously dumps the dataset on disk. This mode is
# good enough in many applications, but an issue with the Redis process or
# a power outage may result into a few minutes of writes lost (depending on
# the configured save points).
#
# The Append Only File is an alternative persistence mode that provides
# much better durability. For instance using the default data fsync policy
# (see later in the config file) Redis can lose just one second of writes in a
# dramatic event like a server power outage, or a single write if something
# wrong with the Redis process itself happens, but the operating system is
# still running correctly.
#
# AOF and RDB persistence can be enabled at the same time without problems.
# If the AOF is enabled on startup Redis will load the AOF, that is the file
# with the better durability guarantees.
#
# Please check http://redis.io/topics/persistence for more information.

appendonly no

# The name of the append only file (default: "appendonly.aof")

appendfilename "appendonly.aof"

关于APPEND ONLY MODE配置咱们之前第二节也讲到过，还是先来回顾一下。
appendfsync no
当设置appendfsync为no的时候，Redis不会主动调用fsync去将AOF日志内容同步到磁盘，所以这一切就完全依赖于操作系统的调试了。对大多数Linux操作系统，是每30秒进行一次fsync，将缓冲区中的数据写到磁盘上。
appendfsync everysec
当设置appendfsync为everysec的时候，Redis会默认每隔一秒进行一次fsync调用，将缓冲区中的数据写到磁盘。但是当这一次的fsync调用时长超过1秒时，Redis会采取延迟fsync的策略，再等一秒钟。也就是在两秒后再进行fsync，这一次的fsync就不管会执行多长时间都会进行。因此这就是为什么说AOF的操作最多丢失超过2s的数据。
由于在fsync时文件描述符会被阻塞，所以当前的写操作就会阻塞。因此在绝大多数情况下，Redis会每隔一秒进行一次fsync。在最坏的情况下，两秒钟会进行一次fsync操作。这一操作在大多数数据库系统中被称为group
commit，就是组合多次写操作的数据，一次性将日志写到磁盘。
appednfsync always
当设置appendfsync为always时，每一次写操作都会调用一次fsync，这时数据是最安全的，当然，由于每次都会执行fsync，所以其性能也会受到影响。

其实看完上面的配置信息，我们应该也能得出结论了，文件的名字很显然是appendonly.aof，至于位置嘛，和dump.rdb一样，都是在/usr/local/reids/bin目录下。

AOF的优缺点

优点	缺点
appendfsync always 同步持久化每次发生数据变更会被立即记录到磁盘数据完整性比较好	性能相较于RDB会比较差
appendfsync everysec 异步操作，每秒记录如果一秒内宕机，有数据丢失	Aof运行效率要慢于rdb,每秒同步策略效率较好，不同步效率和rdb相同
appendfsync no 从不同步	相同数据集的数据而言aof文件要远大于rdb文件，恢复速度慢于rdb

关于RDB和AOF的选择

那说了这么多，这两种持久化方式各有优缺点吗，我们到底该选择哪一个呢？
既然想不出来，咱们就先来看看Redis官方是怎么建议的吧！
在这里插入图片描述
首先我们来对比下，RDB持久化方式能够在指定的时间间隔能对数据进行快照存储
而AOF持久化方式记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始的数据，AOF命令以redis协议追加保存每次写的操作到文件末尾，Redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大。

只做缓存
如果我们想要的数据在服务器运行的时候存在，其实不必使用任何持久化方式。

同时开启两种持久化方式
在这种情况下，当redis重启的时候会优先载入AOF文件来恢复原始的数据，因为在通常情况下AOF文件保存的数据集要比RDB文件保存的数据集要完整。而且同时使用两者时服务器重启也只会找AOF文件。

我们可以使用RDB备份数据库(AOF在不断变化不好备份)，快速重启，而且不会有AOF可能潜在的bug，留着作为一个万一的手段。

性能建议
因为RDB文件只用作后备用途，因此建议只在Slave上持久化RDB文件，而且只要15分钟备份一次就够了，只保留save 900 1这条规则即可。

如果Enalbe AOF，好处是在最恶劣情况下也只会丢失不超过两秒数据，启动脚本较简单只load自己的AOF文件就可以了。但代价一是带来了持续的IO，二是AOF rewrite的最后将rewrite过程中产生的新数据写到新文件造成的阻塞，这种情况几乎是不可避免的。只要硬盘许可，应该尽量减少AOF rewrite的频率，AOF重写的基础大小默认值是64M太小了，可以设到5G以上。默认超过原大小100%大小时重写可以改到适当的数值。

当然如果不Enable AOF ，仅靠Master-Slave Replication实现高可用性也可以。并且能省掉一大笔IO，提升了系统的性能，同时也减少了rewrite时带来的系统波动。代价是如果Master/Slave同时挂掉的话，会丢失十几分钟的数据，启动脚本也要比较两个Master/Slave中的RDB文件，载入较新的那个，费时又费力。