两地三中心及其灾备

xjk201

已于 2022-10-07 19:36:12 修改

阅读量7.7k

点赞数 4

CC 4.0 BY-SA版权

文章标签： java 服务器 servlet

于 2022-07-14 20:05:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xjk201/article/details/125777537

本文详细介绍了从单机房架构到两地三中心的演进，强调了双活或多活数据中心的重要性。双活架构能确保在数据中心故障时，服务能够无缝切换，减少业务中断。讨论了数据库的主备、主从、主主同步策略，以及在容灾中的应用。还涉及了MySQL的半同步复制以保证数据一致性，并探讨了Redis的容灾解决方案。内容涵盖了中间件、Zookeeper、MQ在容灾中的角色，以及如何处理数据一致性问题和提高容灾切换的时效性。

单机房架构

单机房是指只有一个生产数据中心，当出现自然灾害等原因而发生故障时，应用和数据不具备容灾能力。所以演变出了下面的两地三中心架构

一般两地三中心可以达到4个9的可用性：也就是一年中只有一个小时服务断续不可用

完全独立的三个中心，都可以当生产中心使用

同城双中心 ：是指在同城或邻近城市建立两个可独立承担关键系统运行的数据中心，双中心具备基本等同的业务处理能力并通过高速链路实时同步数据，日常情况下可同时分担业务及管理系统的运行，并可切换运行；

异地灾备中心： 是指在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。

问题：这样的话切换到灾备能不能正常用还是不知道的，毕竟没有流量就木有办法做监控，所以切换时间完全不可用（一活2冷），所以出现了升级版的双活或多活的架构

双活架构

双活 ” 或 “ 多活 ” 数据中心: 区别于传统数据中心和灾备中心的模式，前者多个或两个数据中心都处于运行当中，运行相同的应用，具备同样的数据，能够提供跨中心业务负载均衡运行能力，实现持续的应用可用性和灾难备份能力，所以称为 “双活 ” 和 “ 多活 ” ；后者是生产数据中心投入运行，灾备数据中心处在不工作状态，只有当灾难发生时，生产数据中心瘫痪，灾备中心才启动。

“ 双活 ” 数据中心特点：

一、充分利用资源，避免了一个数据中心常年处于闲置状态而造成浪费，通过资源整合， “ 双活 ” 数据中心的服务能力是翻倍的

；二、“ 双活 ” 数据中心如果断了一个数据中心，其业务可以迅速切换到另外一个正在运行的数据中心，切换过程对用户来说是不可感知的。

双活都是随机的流量（轮询的那种），所以必须是无状态的，有状态不能用。

这里拓展下db的同步三种方式：

主备同步：冷备，可能按照天同步，时效性差一些

主从同步：时效性高一些，从一般支持读业务，主支持写，读写分离

主主同步：双向同步，缺点就是存在数据覆盖的问题（相同id的数据），数据一致性要求不高，可以容忍丢失，如日志类的数据

电商双活架构实践

中间件是横向的，跨机房的。因为机房1和机房2的服务都要互相知道所以zk这样都是横向部署。

mq在逻辑层面是独立的，逻辑集群主从模式 mq支持半主原则（大于二分之一）

中间件就是逻辑集群

先大体介绍下容灾的思路：

机房层面容灾：机房1不可用那就吧流量全部切换到机房2

服务层面容灾：正常的调用如下图所示

但是比如b出问题的话那么a就需要调用机房2的B1了

那就用zk 如下所示，b1 服务注册到机房1的zk1，这样a就可以调用机房2的b1了

这就是应用层面的容灾

数据库的容灾：

左边是主库，右边是从库，主库挂了那么新的写要切到右边

那么这种要允许数据丢失，因为ogg可能有三秒数据延迟，比如日志那种数据可以这么存

要是强一致的话，需要事务型mq，启用双写：（也就是业务层写入主库的同时，写入mq中一份数据，保证同时成功的事务消息。）

正常情况下主库和mq都会写一份数据如下所示

如下所示从库消费完mq里面的堆积消息，然后才能切换成从库写，不然会有数据不一致的问题

这种方案存在的问题：

容灾切换的时效性不可用，比如mq延迟，不可用，消息积压太多

这里就升级下：

不过这里mq下面接入了缓存redis

也还是获取黑名单，拉取到mq积压之类的消息，然后和灾备库对比出一个黑名单

故障瞬间数据还是写入mq了，只是写1没了而已，瞬间切换，那就需要快速产生黑名单，实现分钟级切换，

流量发过来请求先看mq里面数据里面有没有积压，有积压就全部放入黑名单，然后开始比对，发现流量不在黑名单里面就可以进入灾备库，这可以做到分钟级切换，对时效性要求高的可以用这种。

对灾备的难点就在于数据一致性，光靠数据库很难实现强一致除非像OceanBase实现了paxos，二阶段的。

成熟的容灾方式：

mysql自带的同步功能也存在问题：

比如左边主，右边从

主挂了以后，如果有强一致要求的话，挂的时候会有数据丢失，你也不知道丢了多少（那些数据），所以不能切主的

那么就采用半同步的形式：

先写从节点，然后再写主节点，可以保证数据一致性，然后切换

但是极端情况存在丢失的情况：

比如主节点写失败，从节点写成功，那么从节点就多一条数据，需要措施去发现多余的数据

但是同样的这样性能就有损失了。

这种适合在一个机房里面的情况

但是如果整个机房都挂了那就没用了，所以是实例级容灾，不是跨机房的容灾

跨机房级容灾，核心点是跨机房

主节点和镜像库跨机房半同步方式（上面讲的），一定要有个镜像库

然后异步同步到容灾库

也就是做流量切换之前保证容灾库和镜像库产出一个黑名单（用对比工具对比），黑名单数据不能写入的，因为挂掉了那时候肯定有数据丢失的。黑名单产出之后，切换从库写入的时候，如果发现写有黑名单数据那么是不能写入的，否则容灾库和镜像库数据不一致写入有风险。

redis容灾：

同理，机房1的主发生数据故障，机房2的从上升为主，那么主从同步可能存在数据丢失的，存在秒级的同步延迟

redis原理是主机写，从同步，架构就是容易丢失，因为是缓存所以丢失可以接受

利用广播特性自己同步。

和数据库同步，很难做到强一致，毕竟不是事务型的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。