@Redis--哨兵模式

10 篇文章 0 订阅

title: Redis
author: Xoni
tags:

  • Redis
    categories:
  • java学习
  • Redis
    abbrlink: bae4ff13

Redis高级

在这里插入图片描述

3.哨兵模式

3.1 哨兵简介

3.1.1 哨兵概念

首先我们来看一个业务场景:如果redis的master宕机了,此时应该怎么办?

![20211208195838.png](https://img-blog.csdnimg.cn/img_convert/30d78e08b9c57d3ff55ff3e4c932fecb.png#clientId=ua0f6b7e8-2943-4&crop=0&crop=0&crop=1&crop=1&errorMessage=unknown error&from=paste&height=259&id=ub8a153bf&name=20211208195838.png&originHeight=291&originWidth=540&originalType=binary&ratio=1&rotation=0&showTitle=false&size=45779&status=error&style=shadow&taskId=u6c2a12bf-d617-4055-8d1f-46c341a3824&title=&width=480)

那此时我们可能需要从一堆的slave中重新选举出一个新的master,那这个操作过程是什么样的呢?这里面会有什么问题出现呢?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BnTyFesq-1664366611245)(https://www.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fblog-1259153703.cos.ap-nanjing.myqcloud.com%2Fimages%2F20211208195837.png&sign=9391fd93aef7b937ae24fd1dfc4fc54ee294ae9699ef8a8a01bf855ae83bbcd5#crop=0&crop=0&crop=1&crop=1&from=url&id=WdDZp&originHeight=383&originWidth=851&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=shadow&title=)]

要实现这些功能,我们就需要redis的哨兵,那哨兵是什么呢?

哨兵(sentinel)

哨兵(sentinel) 是一个分布式系统,用于对主从结构中的每台服务器进行监控,当出现故障时通过投票机制选择新的master并将所有slave连接到新的master。

3.1.2 哨兵作用

哨兵的作用:

  • 监控:监控master和slave
    不断的检查master和slave是否正常运行
    master存活检测、master与slave运行情况检测
  • 通知(提醒):当被监控的服务器出现问题时,向其他(哨兵间,客户端)发送通知
  • 自动故障转移:断开master与slave连接,选取一个slave作为master,将其他slave连接新的master,并告知客户端新的服务器地址

注意:哨兵也是一台redis服务器,只是不提供数据相关服务,通常哨兵的数量配置为单数

3.2 启用哨兵

配置哨兵

  • 配置一拖二的主从结构(利用之前的方式启动即可)
  • 配置三个哨兵(配置相同,端口不同),参看sentinel.conf

1:设置哨兵监听的主服务器信息, sentinel_number表示参与投票的哨兵数量

sentinel monitor master_name  master_host	master_port	 sentinel_number

2:设置判定服务器宕机时长,该设置控制是否进行主从切换

sentinel down-after-milliseconds master_name	million_seconds

3:设置故障切换的最大超时时

sentinel failover-timeout master_name	million_seconds

4:设置主从切换后,同时进行数据同步的slave数量,数值越大,要求网络资源越高,数值越小,同步时间越长

sentinel parallel-syncs master_name sync_slave_number
  • 启动哨兵
redis-sentinel filename

3.3 哨兵工作原理

哨兵在进行主从切换过程中经历三个阶段:

  • 监控
  • 通知
  • 故障转移

3.3.1 监控

用于同步各个节点的状态信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fSeuDoGE-1664366611249)(https://www.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fblog-1259153703.cos.ap-nanjing.myqcloud.com%2Fimages%2F20211208195841.png&sign=a7e205827a0beb69e492b7f5b7953e942dbe338df7c503f581f99352a66820fd#crop=0&crop=0&crop=1&crop=1&from=url&id=Wt3jx&originHeight=465&originWidth=472&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=shadow&title=)]

  • 获取各个sentinel的状态(是否在线)
  • 获取master的状态
master属性
	prunid
	prole:master
各个slave的详细信息
  • 获取所有slave的状态(根据master中的slave信息)
slave属性
	prunid
	prole:slave
	pmaster_host、master_port
	poffset

其内部的工作原理具体如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cFh2oXsz-1664366611250)(https://www.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fblog-1259153703.cos.ap-nanjing.myqcloud.com%2Fimages%2F20211208195840.png&sign=63a7afc972b6a5660e1a4b6f0b1af70363fceb6a21c8da78b5038cd2c4f2927f#crop=0&crop=0&crop=1&crop=1&from=url&id=Ooq7X&originHeight=657&originWidth=856&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=shadow&title=)]

3.3.2 通知

sentinel在通知阶段要不断的去获取master/slave的信息,然后在各个sentinel之间进行共享,具体的流程如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zPJyuZN7-1664366611251)(https://www.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fblog-1259153703.cos.ap-nanjing.myqcloud.com%2Fimages%2F20211208195843.png&sign=b5ba37df308e498c0429e0c88640225956bf9e15c38f76fae8504727a9b2766f#crop=0&crop=0&crop=1&crop=1&from=url&id=p0KM0&originHeight=371&originWidth=1075&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=shadow&title=)]

3.3.3 故障转移

**当master宕机后sentinel是如何知晓并判断出master是真的宕机了呢?**我们来看具体的操作流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UzK5Ezbh-1664366611253)(https://www.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fblog-1259153703.cos.ap-nanjing.myqcloud.com%2Fimages%2F20211208195842.png&sign=b724808e6ef4bb6da0212e6d66d2d5fc8118e5628a64958eb92117580997347b#crop=0&crop=0&crop=1&crop=1&from=url&id=Vk1d5&originHeight=476&originWidth=1177&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=shadow&title=)]

当sentinel认定master下线之后,此时需要决定更换master,那这件事由哪个sentinel来做呢?这时候sentinel之间要进行选举,如下图所示:

在选举的时候每一个人手里都有一票,而每一个人的又都想当这个处理事故的人,那怎么办?大家就开始抢,于是每个人都会发出一个指令,在内网里边告诉大家我要当选举人,比如说现在的sentinel1和sentinel4发出这个选举指令了,那么sentinel2既能接到sentinel1的也能接到sentinel4的,接到了他们的申请以后呢,sentinel2他就会把他的一票投给其中一方,投给谁呢?谁先过来我投给谁,假设sentinel1先过来,所以这个票就给到了sentinel1。那么给过去以后呢,现在sentinel1就拿到了一票,按照这样的一种形式,最终会有一个选举结果。对应的选举最终得票多的,那自然就成为了处理事故的人。需要注意在这个过程中有可能会存在失败的现象,就是一轮选举完没有选取,那就会接着进行第二轮第三轮直到完成选举。

接下来就是由选举胜出的sentinel去从slave中选一个新的master出来的工作这个流程是什么样的呢?

首先它有一个在服务器列表中挑选备选master的原则

  • 不在线的OUT
  • 响应慢的OUT
  • 与原master断开时间久的OUT
  • 优先原则
    优先级
    offset
    runid

选出新的master之后,发送指令( sentinel )给其他的slave:

  • 向新的master发送slaveof no one
  • 向其他slave发送slaveof 新masterIP端口

总结:故障转移阶段

  1. 发现问题,主观下线与客观下线
  2. 竞选负责人
  3. 优选新master
  4. 新master上任,其他slave切换master,原master作为slave故障恢复后连接

4.集群cluster

现状问题:业务发展过程中遇到的峰值瓶颈

  • redis提供的服务OPS可以达到10万/秒,当前业务OPS已经达到10万/秒
  • 内存单机容量达到256G,当前业务需求内存容量1T

使用集群的方式可以快速解决上述问题

4.1 集群简介

集群就是使用网络将若干台计算机联通起来,并提供统一的管理方式,使其对外呈现单机的服务效果

集群作用:
集群简介 集群就是使用网络将若干台计算机联通起来,并提供统一的管理方式,使其对外呈现单机的服务效果

  • 分散单台服务器的访问压力,实现负载均衡
  • 分散单台服务器的存储压力,实现可扩展性
  • 降低单台服务器宕机带来的业务灾难

4.2 Cluster集群结构设计

数据存储设计:

  1. 通过算法设计,计算出key应该保存的位置
  2. 将所有的存储空间计划切割成16384份,每台主机保存一部分
    注意:每份代表的是一个存储空间,不是一个key的保存空间
  3. 将key按照计算出的结果放到对应的存储空间

**那redis的集群是如何增强可扩展性的呢?**譬如我们要增加一个集群节点


槽 redis的集群是如何增强可扩展性的呢?譬如我们要增加一个集群节点
当我们查找数据时,集群是如何操作的呢?

  • 各个数据库相互通信,保存各个库中槽的编号数据
  • 一次命中,直接返回
  • 一次未命中,告知具体位置

4.3 Cluster集群结构搭建

首先要明确的几个要点:

  • 配置服务器(3主3从
  • 建立通信(Meet)
  • 分槽(Slot)
  • 搭建主从(master-slave)

Cluster配置

  • 是否启用cluster,加入cluster节点
cluster-enabled yes|no
  • cluster配置文件名,该文件属于自动生成,仅用于快速查找文件并查询文件内容
cluster-config-file filename
  • 节点服务响应超时时间,用于判定该节点是否下线或切换为从节点
cluster-node-timeout milliseconds
  • master连接的slave最小数量
cluster-migration-barrier min_slave_number

Cluster节点操作命令

  • 查看集群节点信息
cluster nodes
  • 更改slave指向新的master
cluster replicate master-id
  • 发现一个新节点,新增master
cluster meet ip:port
  • 忽略一个没有solt的节点
cluster forget server_id
  • 手动故障转移
cluster failover

集群操作命令:

  • 创建集群
redis-cli –-cluster create masterhost1:masterport1 masterhost2:masterport2  masterhost3:masterport3 [masterhostn:masterportn …] slavehost1:slaveport1  slavehost2:slaveport2 slavehost3:slaveport3 -–cluster-replicas n

注意:master与slave的数量要匹配,一个master对应n个slave,由最后的参数n决定

master与slave的匹配顺序为第一个master与前n个slave分为一组,形成主从结构

  • 添加master到当前集群中,连接时可以指定任意现有节点地址与端口
redis-cli --cluster add-node new-master-host:new-master-port now-host:now-port
  • 添加slave
redis-cli --cluster add-node new-slave-host:new-slave-port master-host:master-port --cluster-slave --cluster-master-id masterid
  • 删除节点,如果删除的节点是master,必须保障其中没有槽slot
redis-cli --cluster del-node del-slave-host:del-slave-port del-slave-id
  • 重新分槽,分槽是从具有槽的master中划分一部分给其他master,过程中不创建新的槽
redis-cli --cluster reshard new-master-host:new-master:port --cluster-from src-  master-id1, src-master-id2, src-master-idn --cluster-to target-master-id --  cluster-slots slots

注意:将需要参与分槽的所有masterid不分先后顺序添加到参数中,使用,分隔

指定目标得到的槽的数量,所有的槽将平均从每个来源的master处获取

  • 重新分配槽,从具有槽的master中分配指定数量的槽到另一个master中,常用于清空指定master中的槽
redis-cli --cluster reshard src-master-host:src-master-port --cluster-from src-  master-id --cluster-to target-master-id --cluster-slots slots --cluster-yes

5.企业级解决方案

5.1 缓存预热

场景“宕机”

服务器启动后迅速宕机

问题排查

1.请求数量较高,大量的请求过来之后都需要去从缓存中获取数据,但是缓存中又没有,此时从数据库中查找数据然后将数据再存入缓存,造成了短期内对redis的高强度操作从而导致问题

2.主从之间数据吞吐量较大,数据同步操作频度较高

解决方案:

  • 前置准备工作:
  1. 日常例行统计数据访问记录,统计访问频度较高的热点数据
  2. 利用LRU数据删除策略,构建数据留存队列例如:storm与kafka配合
  • 准备工作:
  1. 将统计结果中的数据分类,根据级别,redis优先加载级别较高的热点数据
  2. 利用分布式多服务器同时进行数据读取,提速数据加载过程
  3. 热点数据主从同时预热
  • 实施:
  1. 使用脚本程序固定触发数据预热过程
  2. 如果条件允许,使用了CDN(内容分发网络),效果会更好

总的来说:缓存预热就是系统启动前,提前将相关的缓存数据直接加载到缓存系统。避免在用户请求的时候,先查询数据库,然后再将数据缓存的问题!用户直接查询事先被预热的缓存数据!

5.2 缓存雪崩

场景数据库服务器崩溃,一连串的场景会随之儿来

  1. 系统平稳运行过程中,忽然数据库连接量激增

  2. 应用服务器无法及时处理请求

  3. 大量408,500错误页面出现

  4. 用户反复刷新页面获取数据

  5. 数据库崩溃

  6. 应用服务器崩溃

  7. 重启应用服务器无效

  8. Redis服务器崩溃

  9. Redis集群崩溃

  10. 重启数据库后再次被瞬间流量放倒

问题排查

  1. 在一个较短的时间内,缓存中较多的key集中过期

  2. 此周期内请求访问过期的数据,redis未命中,redis向数据库获取数据

  3. 数据库同时接收到大量的请求无法及时处理

  4. Redis大量请求被积压,开始出现超时现象

  5. 数据库流量激增,数据库崩溃

  6. 重启后仍然面对缓存中无数据可用

  7. Redis服务器资源被严重占用,Redis服务器崩溃

  8. Redis集群呈现崩塌,集群瓦解

  9. 应用服务器无法及时得到数据响应请求,来自客户端的请求数量越来越多,应用服务器崩溃

  10. 应用服务器,redis,数据库全部重启,效果不理想

总而言之就两点短时间范围内,大量key集中过期

解决方案

  • 思路:

1.更多的页面静态化处理

2.构建多级缓存架构

Nginx缓存+redis缓存+ehcache缓存

3.检测Mysql严重耗时业务进行优化

对数据库的瓶颈排查:例如超时查询、耗时较高事务等

4.灾难预警机制

  • 监控redis服务器性能指标
  • CPU占用、CPU使用率
  • 内存容量
  • 查询平均响应时间
  • 线程数

5.限流、降级

短时间范围内牺牲一些客户体验,限制一部分请求访问,降低应用服务器压力,待业务低速运转后再逐步放开访问

落地实践:

1.LRU与LFU切换

2.数据有效期策略调整

  • 根据业务数据有效期进行分类错峰,A类90分钟,B类80分钟,C类70分钟
  • 过期时间使用固定时间+随机值的形式,稀释集中到期的key的数量

3.超热数据使用永久key

4.定期维护(自动+人工)

对即将过期数据做访问量分析,确认是否延时,配合访问量统计,做热点数据的延时

5.加锁:慎用!

总的来说缓存雪崩就是瞬间过期数据量太大,导致对数据库服务器造成压力。如能够有效避免过期时间集中,可以有效解决雪崩现象的 出现(约40%),配合其他策略一起使用,并监控服务器的运行数据,根据运行记录做快速调整。

5.3 缓存击穿

场景还是数据库服务器崩溃,但是跟之前的场景有点不太一样

  1. 系统平稳运行过程中

  2. 数据库连接量瞬间激增

  3. Redis服务器无大量key过期

  4. Redis内存平稳,无波动

  5. Redis服务器CPU正常

  6. 数据库崩溃

问题排查:

  1. Redis中某个key过期,该key访问量巨大

  2. 多个数据请求从服务器直接压到Redis后,均未命中

  3. Redis在短时间内发起了大量对数据库中同一数据的访问

总而言之就两点:单个key高热数据,key过期

解决方案

1.预先设定

以电商为例,每个商家根据店铺等级,指定若干款主打商品,在购物节期间,加大此类信息key的过期时长 <br />       注意:购物节不仅仅指当天,以及后续若干天,访问峰值呈现逐渐降低的趋势

2.现场调整

**监控访问量**,对自然流量激增的数据延长过期时间或设置为永久性key

3.后台刷新数据

启动定时任务,高峰期来临之前,刷新数据有效期,确保不丢失

4.二级缓存

设置不同的失效时间,保障不会被同时淘汰就行

5.加锁

分布式锁,防止被击穿,但是要注意也是性能瓶颈,慎重!

总的来说缓存击穿就是单个高热数据过期的瞬间,数据访问量较大,未命中redis后,发起了大量对同一数据的数据库访问,导致对数 据库服务器造成压力。应对策略应该在业务数据分析与预防方面进行,配合运行监控测试与即时调整策略,毕竟单个key的过 期监控难度较高,配合雪崩处理策略即可。

5.4 缓存穿透

场景数据库服务器又崩溃了,跟之前的一样吗?

  1. 系统平稳运行过程中

  2. 应用服务器流量随时间增量较大

  3. Redis服务器命中率随时间逐步降低

  4. Redis内存平稳,内存无压力

  5. Redis服务器CPU占用激增

  6. 数据库服务器压力激增

  7. 数据库崩溃

问题排查:

  1. Redis中大面积出现未命中

  2. 出现非正常URL访问

问题分析

  • 获取的数据在数据库中也不存在,数据库查询未得到对应数据
  • Redis获取到null数据未进行持久化,直接返回
  • 下次此类数据到达重复上述过程
  • 出现黑客攻击服务器

解决方案

1**.缓存null**

对查询结果为null的数据进行缓存(长期使用,定期清理),设定短时限,例如30-60秒,最高5分钟

2.白名单策略

提前预热各种分类数据id对应的bitmaps,id作为bitmaps的offset,相当于设置了数据**白名单**。当加载正常数据时放行,加载异常数据时直接拦截(效率偏低)

使用布隆过滤器(有关布隆过滤器的命中问题对当前状况可以忽略)

2.实施监控

实时监控redis命中率(业务正常范围时,通常会有一个波动值)与null数据的占比

	非活动时段波动:通常检测3-5倍,超过5倍纳入重点排查对象<br />		活动时段波动:通常检测10-50倍,超过50倍纳入重点排查对象

根据倍数不同,启动不同的排查流程。然后使用**黑名单**进行防控(运营)

4.key加密

问题出现后,临时启动防灾业务key,对key进行业务层传输加密服务,设定校验程序,过来的key校验

例如每天随机分配60个加密串,挑选2到3个,混淆到页面数据id中,发现访问key不满足规则,驳回数据访问

总的来说缓存击穿是指访问了不存在的数据,跳过了合法数据的redis数据缓存阶段,每次访问数据库,导致对数据库服务器造成压力。通常此类数据的出现量是一个较低的值,当出现此类情况以毒攻毒,并及时报警。应对策略应该在临时预案防范方面多做文章。

无论是黑名单还是白名单,都是对整体系统的压力,警报解除后尽快移除。

5.5 性能指标监控

redis中的监控指标如下:

  • 性能指标:Performance
  • 响应请求的平均时间:
  • 平均每秒处理请求总数
  • 缓存查询命中率(通过查询总次数与查询得到非nil数据总次数计算而来)
latency
instantaneous_ops_per_sec
hit_rate(calculated)
  • 内存指标:Memory
  • 当前内存使用量
  • 内存碎片率(关系到是否进行碎片整理)
  • 为避免内存溢出删除的key的总数量
  • 基于阻塞操作(BLPOP等)影响的客户端数量
used_memory
mem_fragmentation_ratio
evicted_keys
blocked_clients
  • 基本活动指标:Basic_activity
  • 当前客户端连接总数
  • 当前连接slave总数
  • 最后一次主从信息交换距现在的秒
  • key的总数
connected_clients
connected_slaves
master_last_io_seconds_ago
keyspace
  • 持久性指标:Persistence
  • 当前服务器最后一次RDB持久化的时间
  • 当前服务器最后一次RDB持久化后数据变化总量
rdb_last_save_time
rdb_changes_since_last_save
  • 错误指标:Error
  • 被拒绝连接的客户端总数(基于达到最大连接值的因素)
  • key未命中的总次数
  • 主从断开的秒数
rejected_connections
keyspace_misses
master_link_down_since_seconds

要对redis的相关指标进行监控,我们可以采用一些用具:

  • CloudInsight Redis
  • Prometheus
  • Redis-stat
  • Redis-faina
  • RedisLive
  • zabbix

也有一些命令工具:

  • benchmark

测试当前服务器的并发性能

范例1:50个连接,10000次请求对应的性能

范例2:100个连接,5000次请求对应的性能

redis-benchmark [-h ] [-p ] [-c ] [-n <requests]> [-k ]
redis-benchmark
redis-benchmark -c 100 -n 5000
  • redis-cli
    monitor:启动服务器调试信息
monitor
slowlog:慢日志

获取慢查询日志

get :获取慢查询日志信息

len :获取慢查询日志条目数

reset :重置慢查询日志

相关配置

slowlog [operator]
slowlog-log-slower-than 1000 #设置慢查询的时间下线,单位:微妙
slowlog-max-len 100	#设置慢查询命令对应的日志显示长度,单位:命令数
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李莲花*

多谢多谢,来自一名大学生的感谢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值