Redis高级-删除策略、主从复制、哨兵模式

天演L

已于 2024-04-04 22:11:16 修改

阅读量973

点赞数 22

分类专栏： Redis 文章标签： redis 数据库缓存 java 网络 tcp/ip

于 2024-03-12 08:33:42 首次发布

本文链接：https://blog.csdn.net/weixin_61611746/article/details/136201541

版权

Redis 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.删除策略

1.过期数据

redis中的数据特征

Redis是一种内存级数据库，所有数据均存放在内存中，内存中的数据可以通过TTL指令获取其状态

TTL返回的值有三种情况：正数，-1，-2

正数：代表该数据在内存中还能存活的时间

-1：永久有效的数据

-2 ：已经过期的数据 或被删除的数据或未定义的数据

删除策略就是针对已过期数据的处理策略，已过期的数据是真的就立即删除了吗？其实也不是，我们会有多种删除策略，是分情况的，在不同的场景下使用不同的删除方式会有不同效果，这也正是我们要将的数据的删除策略的问题

时效性数据的存储结构

在Redis中，如何给数据设置它的失效周期？数据的时效在redis中如何存储？如下图

过期数据是一块独立的存储空间，Hash结构，field是内存地址，value是过期时间，保存了所有key的过期描述，在最终进行过期处理的时候，对该空间的数据进行检测，当时间到期之后通过field找到内存该地址处的数据，然后进行相关操作

2.数据删除策略

数据删除策略的目标

在内存占用与CPU占用之间寻找一种平衡，顾此失彼都会造成整体redis性能的下降，甚至引发服务器宕机或内存泄露

针对过期数据要进行删除的时候都有这些删除策略

1.定时删除

2.惰性删除

3.定期删除

定时删除

创建一个定时器，当key设置有过期时间，且过期时间到达时，由定时器任务立即执行对键的删除操作

优点：节约内存，到时就删除，快速释放掉不必要的内存占用

缺点：CPU压力很大，无论CPU此时负载量多高，均占用CPU，会影响redis服务器响应时间和指令吞吐量

总结：用处理器性能换取存储空间（拿时间换空间）

惰性删除

数据到达过期时间，不做处理。等下次访问该数据时，我们需要判断

1.如果未过期，返回数据

2.发现已过期，删除，返回不存在

优点：节约CPU性能，发现必须删除的时候才删除

缺点：内存压力很大，出现长期占用内存的数据

总结：用存储空间换取处理器性能（拿空间换时间）

定期删除

定时删除和惰性删除这两种方案都是走的极端，那有没有折中方案：定期删除方案

Redis启动服务器初始化时，读取配置server.hz的值，默认为10

每秒钟执行server.hz次serverCron()-->databasesCron()-->activeExpireCycle()

activeExpireCycle()对每个expires[*]逐一进行检测，每次执行耗时：250ms/server.hz

对某个expires[*]检测时，随机挑选W个key检测

如果key超时，删除key

如果一轮中删除的key的数量>W*25%，循环该过程

如果一轮中删除的key的数量≤W*25%，检查下一个expires[*]，0-15循环

W取值=ACTIVE_EXPIRE_CYCLE_LOOKUPS_PER_LOOP属性值

参数current_db用于记录activeExpireCycle() 进入哪个expires[*] 执行

如果activeExpireCycle()执行时间到期，下次从current_db继续向下执行

总的来说：定期删除就是周期性轮询redis库中的时效性数据，采用随机抽取的策略，利用过期数据占比的方式控制删除频度

特点1：CPU性能占用设置有峰值，检测频度可自定义设置

特点2：内存压力不是很大，长期占用内存的冷数据会被持续清理

总结：周期性抽查存储空间（随机抽查，重点抽查）

删除策略对比

3.数据淘汰策略（逐出算法）

淘汰策略概述

当新数据进入redis时，如果内存不足怎么办？在执行每一个命令前，会调用freeMemoryIfNeeded()检测内存是否充足。如果内存不满足新加入数据的最低存储要求，redis要临时删除一些数据为当前指令清理存储空间。清理数据的策略称为逐出算法。

注意：逐出数据的过程不是100%能够清理出足够的可使用的内存空间，如果不成功则反复执行。当对所有数据尝试完毕，如不能达到内存清理的要求，将出现错误信息

(error) OOM command not allowed when used memory >'maxmemory'

策略配置

影响数据淘汰的相关配置如下：

1：最大可使用内存，即占用物理内存的比例，默认值为0，表示不限制。生产环境中根据需求设定，通常设置在50%以上

maxmemory ?mb

每次选取待删除数据的个数，采用随机获取数据的方式作为待检测删除数据

maxmemory-samples count

对数据进行删除的选择策略

maxmemory-policy policy

那数据删除的策略policy到底有几种呢？一共是3类8种

第一类：检测易失数据（可能会过期的数据集server.db[i].expires ）

volatile-lru：挑选最近最少使用的数据淘汰
volatile-lfu：挑选最近使用次数最少的数据淘汰
volatile-ttl：挑选将要过期的数据淘汰
volatile-random：任意选择数据淘汰

第二类：检测全库数据（所有数据集server.db[i].dict ）

allkeys-lru：挑选最近最少使用的数据淘汰
allkeLyRs-lfu：：挑选最近使用次数最少的数据淘汰
allkeys-random：任意选择数据淘汰，相当于随机

第三类：放弃数据驱逐

no-enviction（驱逐）：禁止驱逐数据(redis4.0中默认策略)，会引发OOM(Out Of Memory)

注意：这些策略是配置到哪个属性上？怎么配置？

maxmemory-policy volatile-lru

数据淘汰策略配置依据

使用INFO命令输出监控信息，查询缓存 hit 和 miss 的次数，根据业务需求调优Redis配置

2.主从复制

1.高可用

首先我们要理解互联网应用因为其独有的特性我们演化出的三高架构

高并发：

应用要提供某一业务要能支持很多客户端同时访问的能力，我们称为并发，高并发意思就很明确了

高性能：

性能带给我们最直观的感受就是：速度快，时间短

高可用

可用性：一年中应用服务正常运行的时间占全年时间的百分比

应用服务在全年宕机的时间加在一起就是全年应用服务不可用的时间，然后我们可以得到应用服务全年可用的时间

4小时27分15秒+11分36秒+2分16秒=4小时41分7秒=16867秒

1年=3652460*60=31536000秒

可用性=（31536000-16867）/31536000*100%=99.9465151%

业界可用性目标5个9，即99.999%，即服务器年宕机时长低于315秒，约5.25分钟

2.主从复制概念

你的“Redis”是否高可用？

分析单机redis的风险与问题：

问题1.机器故障

现象：硬盘故障、系统崩溃

本质：数据丢失，很可能对业务造成灾难性打击

结论：基本上会放弃使用redis

问题2.容量瓶颈

现象：内存不足，从16G升级到64G，从64G升级到128G，无限升级内存

本质：穷，硬件条件跟不上

结论：放弃使用redis

结论：为了避免单点Redis服务器故障，准备多台服务器，互相连通。将数据复制多个副本保存在不同的服务器上，连接在一起，并保证数据是同步的。即使有其中一台服务器宕机，其他服务器依然可以继续提供服务，实现Redis的高可用，同时实现数据冗余备份

多台服务器连接方案

提供数据方：master

主服务器，主节点，主库，主客户端

接收数据方：slave

从服务器，从节点，从库

从客户端

需要解决的问题：

数据同步（master的数据复制到slave中）

概念：主从复制即将master中的数据即时、有效的复制到slave中

特征：一个master可以拥有多个slave，一个slave只对应一个master

职责：master和slave各自的职责不一样

master:

写数据

执行写操作时，将出现变化的数据自动同步到slave

读数据（可忽略）

slave:

读数据

写数据（禁止）

3.主从复制的作用

读写分离：master写、slave读，提高服务器的读写负载能力

负载均衡：基于主从结构，配合读写分离，由slave分担master负载，并根据需求的变化，改变slave的数量，通过多个从节点分担数据读取负载，大大提高Redis服务器并发量与数据吞吐量

故障恢复：当master出现问题时，由slave提供服务，实现快速的故障恢复

数据冗余：实现数据热备份，是持久化之外的一种数据冗余方式

高可用基石：基于主从复制，构建哨兵模式与集群，实现Redis的高可用方案

4.主从复制工作流程

主从复制过程大体可以分为3个阶段

建立连接阶段（即准备阶段）

数据同步阶段

命令传播阶段（反复同步）

而命令的传播其实有4种，分别如下：

主从复制的工作流程（三个阶段）

阶段一：建立连接

建立slave到master的连接，使master能够识别slave，并保存slave端口号

步骤1：设置master的地址和端口，保存master信息

步骤2：建立socket连接

步骤3：发送ping命令（定时器任务）

步骤4：身份验证

步骤5：发送slave端口信息

至此，主从连接成功！

slave：保存master的地址与端口

master：保存slave的端口

总体：之间创建了连接的socket

master和slave互联

方式一：客户端发送命令

slaveof masterip masterport

方式二：启动服务器参数

redis-server --slaveof masterip masterport

方式三：服务器配置（主流方式）

slaveof masterip masterport

为redis-6382.conf与6383配置

主从结构环境搭建

创建存储集群文件的目录
mkdir conf-cluster
复制文件redis-6381.conf
cp redis-6379.conf redis-6381.conf

修改redis-6381.conf

bind 192.168.235.129
port 6381
dir redis/data
dbfilename "dump-6381.rdb"
appendfilename "appendonly-6381.aof"

同样复制创建redis-6382.conf

#sed命令说明：
sed 's/要被取代的字串/新的字串/g'   操作的文件

sed "s/6381/6382/g" redis-6381.conf >redis-6382.conf

同样复制创建redis-6383.conf

sed "s/6382/6383/g" redis-6382.conf >redis-6383.conf

slave系统信息

master_link_down_since_seconds
masterhost & masterport

master系统信息

uslave_listening_port(多个)

主从断开连接

断开slave与master的连接，slave断开连接后，不会删除已有数据，只是不再接受master发送的数据

slaveof no one

授权访问

master客户端发送命令设置密码

requirepass password

master配置文件设置密码

config set requirepass password
config get requirepass

slave客户端发送命令设置密码

auth password

slave配置文件设置密码

masterauth password

slave启动服务器设置密码

redis-server –a password

阶段二：数据同步

在slave初次连接master后，复制master中的所有数据到slave

将slave的数据库状态更新成master当前的数据库状态

步骤1：请求同步数据

步骤2：创建RDB同步数据

步骤3：恢复RDB同步数据

步骤4：请求部分同步数据

步骤5：恢复部分同步数据

至此，数据同步工作完成！

当前状态：

slave：具有master端全部数据，包含RDB过程接收的数据

master：保存slave当前数据同步的位置

总体：之间完成了数据克隆

数据同步阶段master说明

1.如果master数据量巨大，数据同步阶段应避开流量高峰期，避免造成master阻塞，影响业务正常执行

2.复制缓冲区大小设定不合理，会导致数据溢出。如进行全量复制周期太长，进行部分复制时发现数据已经存在丢失的情况，必须进行第二次全量复制，致使slave陷入死循环状态。

repl-backlog-size ?mb

3.master单机内存占用主机内存的比例不应过大，建议使用50%-70%的内存，留下30%-50%的内存用于执行bgsave命令和创建复制缓冲区

数据同步阶段slave说明

1.为避免slave进行全量复制、部分复制时服务器响应阻塞或数据不同步，建议关闭此期间的对外服务

   slave-serve-stale-data yes|no

2.数据同步阶段，master发送给slave信息可以理解master是slave的一个客户端，主动向slave发送命令

3.多个slave同时对master请求数据同步，master发送的RDB文件增多，会对带宽造成巨大冲击，如果master带宽不足，因此数据同步需要根据业务需求，适量错峰

4.slave过多时，建议调整拓扑结构，由一主多从结构变为树状结构，中间的节点既是master，也是 slave。注意使用树状结构时，由于层级深度，导致深度越高的slave与最顶层master间数据同步延迟较大，数据一致性变差，应谨慎选择

全量复制与部分复制

全量复制（Full Resynchronization）：全量复制是指在初始阶段或者出现数据不一致的情况下，从节点需要将主节点上的所有数据进行完整的复制。全量复制的过程如下：

从节点向主节点发送SYNC命令，请求进行全量复制。

主节点接收到SYNC命令后，开始执行BGSAVE命令生成RDB文件，并使用缓冲区记录接收到的写命令。

当BGSAVE命令执行完毕后，主节点将RDB文件发送给从节点，并将缓冲区中的写命令发送给从节点。

从节点接收到RDB文件和写命令后，先清空自己的数据，然后加载RDB文件，最后执行写命令，使得从节点的数据与主节点一致。

部分复制（Partial Resynchronization）：部分复制是指在全量复制完成后，主节点继续将自己的写命令发送给从节点，以保持数据的一致性。部分复制的过程如下：

主节点将每次写操作都记录在内存中的缓冲区中，并将缓冲区中的写命令发送给从节点。

从节点接收到写命令后，先将命令写入自己的AOF文件中，然后执行命令，使得从节点的数据与主节点保持一致。

在全量复制和部分复制的过程中，主节点会将自己的数据和写命令发送给从节点，从节点则会接收并执行这些数据和命令，以达到数据的同步和一致性。

阶段三：命令传播

当master数据库状态被修改后，导致主从服务器数据库状态不一致，此时需要让主从数据同步到一致的状态，同步的动作称为命令传播

master将接收到的数据变更命令发送给slave，slave接收命令后执行命令

命令传播阶段可能会发生部分复制

命令传播阶段出现了断网现象：

网络闪断闪连：忽略

短时间网络中断：部分复制

长时间网络中断：全量复制

这里主要来看部分复制，部分复制的三个核心要素

1.服务器的运行 id（run id）

2.主服务器的复制积压缓冲区

3.主从服务器的复制偏移量

服务器运行ID（runid）

概念：服务器运行ID是每一台服务器每次运行的身份识别码，一台服务器多次运行可以生成多个运行id

组成：运行id由40位字符组成，是一个随机的十六进制字符

例如：fdc9ff13b9bbaab28db42b3d50f852bb5e3fcdce

作用：运行id被用于在服务器间进行传输，识别身份

如果想两次操作均对同一台服务器进行，必须每次操作携带对应的运行id，用于对方识别

实现方式：运行id在每台服务器启动时自动生成的，master在首次连接slave时，会将自己的运行ID发送给slave，slave保存此ID，通过info Server命令，可以查看节点的runid

复制缓冲区

概念：复制缓冲区，又名复制积压缓冲区，是一个先进先出（FIFO）的队列，用于存储服务器执行过的命令，每次传播命令，master都会将传播的命令记录下来，并存储在复制缓冲区

复制缓冲区默认数据存储空间大小是1M

当入队元素的数量大于队列长度时，最先入队的元素会被弹出，而新元素会被放入队列

作用：用于保存master收到的所有指令（仅影响数据变更的指令，例如set，select）

数据来源：当master接收到主客户端的指令时，除了将指令执行，会将该指令存储到缓冲区中

复制缓冲区内部工作原理：

偏移量：

概念：一个数字，描述复制缓冲区中的指令字节位置

分类：

master复制偏移量：记录发送给所有slave的指令字节对应的位置（多个）

slave复制偏移量：记录slave接收master发送过来的指令字节对应的位置（一个）

作用：同步信息，比对master与slave的差异，当slave断线后，恢复数据使用

数据来源：

master端：发送一次记录一次

slave端：接收一次记录一次

5.工作流程更新(全量复制/部分复制)与心跳机制

心跳机制

进入命令传播阶段候，master与slave间需要进行信息交换，使用心跳机制进行维护，实现双方连接保持在线

master心跳：

内部指令：PING

周期：由repl-ping-slave-period决定，默认10秒

作用：判断slave是否在线

查询：INFO replication 获取slave最后一次连接时间间隔，lag项维持在0或1视为正常

slave心跳任务

内部指令：REPLCONF ACK {offset}

周期：1秒

作用1：汇报slave自己的复制偏移量，获取最新的数据变更指令

作用2：判断master是否在线

心跳阶段注意事项：

当slave多数掉线，或延迟过高时，master为保障数据稳定性，将拒绝所有信息同步

min-slaves-to-write 2
min-slaves-max-lag 8

slave数量少于2个，或者所有slave的延迟都大于等于8秒时，强制关闭master写功能，停止数据同步

slave数量由slave发送REPLCONF ACK命令做确认

slave延迟由slave发送REPLCONF ACK命令做确认

6.主从复制常见问题

1 频繁的全量复制

伴随着系统的运行，master的数据量会越来越大，一旦master重启，runid将发生变化，会导致全部slave的全量复制操作

内部优化调整方案：

1.master内部创建master_replid变量，使用runid相同的策略生成，长度41位，并发送给所有slave

2.在master关闭时执行命令shutdown save，进行RDB持久化,将runid与offset保存到RDB文件中

repl-id  repl-offset

通过redis-check-rdb命令可以查看该信息

3.master重启后加载RDB文件，恢复数据，重启后，将RDB文件中保存的repl-id与repl-offset加载到内存中

master_repl_id=repl  master_repl_offset =repl-offset

通过info命令可以查看该信息

作用：本机保存上次runid，重启后恢复该值，使所有slave认为还是之前的master

第二种出现频繁全量复制的问题现象：网络环境不佳，出现网络中断，slave不提供服务

问题原因：复制缓冲区过小，断网后slave的offset越界，触发全量复制

最终结果：slave反复进行全量复制

解决方案：修改复制缓冲区大小

repl-backlog-size ?mb

建议设置如下：

1.测算从master到slave的重连平均时长second

2.获取master平均每秒产生写命令数据总量write_size_per_second

3.最优复制缓冲区空间 = 2 * second * write_size_per_second

2.频繁的网络中断

问题现象：master的CPU占用过高或 slave频繁断开连接

问题原因

slave每1秒发送REPLCONFACK命令到master

当slave接到了慢查询时（keys * ，hgetall等），会大量占用CPU性能

master每1秒调用复制定时函数replicationCron()，比对slave发现长时间没有进行响应

最终结果：master各种资源（输出缓冲区、带宽、连接等）被严重占用

解决方案：通过设置合理的超时时间，确认是否释放slave

repl-timeout seconds

该参数定义了超时时间的阈值（默认60秒），超过该值，释放slave

问题现象：slave与master连接断开

问题原因

master发送ping指令频度较低

master设定超时时间较短

ping指令在网络中存在丢包

解决方案：提高ping指令发送的频度

repl-ping-slave-period seconds

超时时间repl-time的时间至少是ping指令频度的5到10倍，否则slave很容易判定超时

3.数据不一致

问题现象：多个slave获取相同数据不同步

问题原因：网络信息不同步，数据发送有延迟

解决方案

优化主从间的网络环境，通常放置在同一个机房部署，如使用阿里云等云服务器时要注意此现象

监控主从节点延迟（通过offset）判断，如果slave延迟过大，暂时屏蔽程序对该slave的数据访问

slave-serve-stale-data	yes|no

开启后仅响应info、slaveof等少数命令（慎用，除非对数据一致性要求很高）

3.哨兵模式

1 哨兵概述

首先来看一个业务场景：如果redis的master宕机了，此时应该怎么办

那此时我们可能需要从一堆的slave中重新选举出一个新的master，那这个操作过程是什么样的？这里面会有什么问题出现

要实现这些功能，我们就需要redis的哨兵

哨兵(sentinel) 是一个分布式系统，用于对主从结构中的每台服务器进行监控，当出现故障时通过投票机制选择新的master并将所有slave连接到新的master

2.哨兵作用

监控：监控master和slave

不断的检查master和slave是否正常运行

master存活检测、master与slave运行情况检测

通知（提醒）：当被监控的服务器出现问题时，向其他（哨兵间，客户端）发送通知

自动故障转移：断开master与slave连接，选取一个slave作为master，将其他slave连接新的master，并告知客户端新的服务器地址

注意：哨兵也是一台redis服务器，只是不提供数据相关服务，通常哨兵的数量配置为单数

3.哨兵环境配置与启用哨兵

配置哨兵

配置一拖二的主从结构（利用之前的方式启动即可）

配置三个哨兵（配置相同，端口不同），参看sentinel.conf

启动哨兵

redis-sentinel filename

设置哨兵监听的主服务器信息， sentinel_number表示参与投票的哨兵数量

sentinel monitor master_name  master_host	master_port	 sentinel_number

设置判定服务器宕机时长，该设置控制是否进行主从切换

sentinel down-after-milliseconds master_name	million_seconds

设置故障切换的最大超时时

sentinel failover-timeout master_name	million_seconds

设置主从切换后，同时进行数据同步的slave数量，数值越大，要求网络资源越高，数值越小，同步时间越长

sentinel parallel-syncs master_name sync_slave_number

哨兵集群配置

去除注释和空格后将剩余的配置输入sentinel-26401.conf文件

cat sentinel.conf |grep -v "#"|grep -v "^$">sentinel-26401.conf

修改后：sentinel-26401.conf

port 26401
dir /opt/redis/redis-5.0.0/data
sentinel monitor mymaster 127.0.0.1 6401 2
sentinel down-after-milliseconds mymaster 5000
sentinel parallel-syncs mymaster 1
sentinel failover-timeout mymaster 20000
sentinel deny-scripts-reconfig yes

复制创建: sentinel-26402.conf sentinel-26403.conf

sed "s/26401/26402/g" sentinel-26401.conf >sentinel-26402.conf
sed "s/26402/26403/g" sentinel-26401.conf >sentinel-26403.conf

主从集群配置

cp redis-6381.conf redis-6401.conf

然后把端口改为6401

复制redis-6401.conf为redis-6402.conf

cp redis-6401.conf redis-6402.conf

#修改redis-6402.conf 添加主从
port 6402
slaveof 127.0.0.1 6401

复制redis-6402.conf为redis-6403.conf并修改

sed "s/6402/6403/g" redis-6402.conf > redis-6403.conf

配置文件改造完毕

启动主从环境

启动哨兵

./redis-sentinel ../sentinel-26401.conf

./redis-sentinel ../sentinel-26402.conf

./redis-sentinel ../sentinel-26403.conf

测试主从切换

关掉主服务器

原来的主6401重新启动后，会做为新的slave连接到6402上

此时6401没有配置主从复制，数据怎么办

答：哨兵自动修改了集群中的配置文件

4.哨兵工作原理

哨兵在进行主从切换过程中经历三个阶段

监控

通知

故障转移

第一阶段：监控

用于同步各个节点的状态信息

获取各个sentinel的状态（是否在线）

获取master的状态

master属性
   prunid
   prole：master
各个slave的详细信息

获取所有slave的状态（根据master中的slave信息）

slave属性
   prunid
   prole：slave
   pmaster_host、master_port
   poffset ...

内部的工作原理：

第二阶段：通知

sentinel在通知阶段要不断的去获取master/slave的信息，然后在各个sentinel之间进行共享

第三阶段：故障转移

当master宕机后sentinel是如何知晓并判断出master是真的宕机了

当sentinel认定master下线之后，此时需要决定更换master，那这件事由哪个sentinel来做呢？这时候sentinel之间要进行选举

接下来就是由选举胜出的sentinel去从slave中选一个新的master出来的工作，这个流程是什么样的

天演L

关注

22
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Redis高级-删除策略、主从复制、哨兵模式

当新数据进入redis时，如果内存不足怎么办？在执行每一个命令前，会调用检测内存是否充足。如果内存不满足新加入数据的最低存储要求，redis要临时删除一些数据为当前指令清理存储空间。清理数据的策略称为逐出算法。注意：逐出数据的过程不是100%能够清理出足够的可使用的内存空间，如果不成功则反复执行。当对所有数据尝试完毕，如不能达到内存清理的要求，将出现错误信息策略配置影响数据淘汰的相关配置如下：1：最大可使用内存，即占用物理内存的比例，默认值为0，表示不限制。
复制链接

扫一扫