阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践

本文介绍了云上跨可用区容灾和异地多活的实践,包括系统容灾类型、主流容灾架构及其优缺点。阿里云技术专家邓青琳分享了同城灾备、同城双活、异地应用双活和异地双活的架构,并讨论了弹性计算在容灾中的应用。文中提到,云上容灾建设分为分析、设计和实施阶段,阿里云提供了各种服务如服务器迁移中心、资源编排、数据传输服务等来支持高效的容灾建设。
摘要由CSDN通过智能技术生成

2022 年 7 月 4 日,【可观测,才可靠——云上自动化运维 CloudOps 系列沙龙_第一弹】正式推出,连续四天,四大主题分享,最后一位分享的讲师是阿里云弹性计算技术专家邓青琳,他带来的主题分享是《云上跨可用区容灾和异地多活》,以下是他的演讲内容整理,供大家阅览:

01 系统容灾

提到容灾,必然会关联到故障。常见的故障类型有变更、硬件故障、断电断网以及自然灾害,发生的频率依次降低。但发生频率低并不意味着不重要,断电断网或自然灾害产生的故障往往是致命的

2021 年 3 月 10 日,欧洲最大的云服务公司 OVH 位于法国的机房着火,导致数据中心被完全烧毁,致使 350 万个网站下线,部分客户的数据永久丢失,无法恢复。OVH 公司 CEO 在推特上关于此次火灾的说明中提示客户启用自己的容灾方案。由此可见,即使应用部署在云上,也无法避免市政方面的故障比如断电断网以及极端自然灾害引起的故障,因此也需要做好相应的容灾方案

目前主要的容灾类型可以分为以下三类:

① 同城(跨可用区),主要分为同城灾备、同城双活以及同城多活。

② 异地(跨地域),主要分为异地双读、异地应用双活以及异地双活。

③ 其他类型,包括两地三中心、两地三活以及单元化。

没有一套容灾方案可以适用于所有场景,我们需要结合实际业务发展趋势、业务系统的特征以及能够投入多少资源成本等方面综合评估,最终选出最适合的容灾架构方案。

02 主流容灾架构

容灾能力主要有 RPO 和 RTO 两个评价指标

RPO 指应发生故障时能忍受数据丢失的最大程度。系统越重要,要求 RPO 越小。如果做数据备份,RPO 越小意味着数据的备份频率更高,比如一般的系统可能一天备份一次,非常重要的系统可能一小时备份一次;如果做数据同步,RPO 越小意味着要求数据同步链路的可靠性更高或延迟更低,对整个生产环境和网络的压力越大,需要的成本也更高。

RTO 指应用从出现故障到故障恢复能接受的最大时间。系统越重要,要求 RTO 越小

上图右侧为国家信息委员会制定的灾难恢复能力等级,分为 1-6 六个等级。其中 6 为要求最严格的等级,RTO 要求为数分钟,RPO 要求为 0,意味着系统数据不允许丢失。

上图为目前四个主流容灾架构的对比。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值