容灾技术及建设经验介绍

1 什么是容灾

    容灾系统是指建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换。当一处系统因意外停止工作时,整个系统可以切换到另一处系统,使得系统功能可以继续工作。

    容灾即使是系统的高可用性技术的一个组成部分,荣在系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。


2 容灾综述


2.1 容灾分类

    从其对系统的保护程度来分,可以讲容灾系统分为:数据容灾和应用容灾。
  • 数据容灾:指建立一个异地的数据系统,该系统可以是本地关键应用数据的一个备份或实时复制。
  • 应用容灾:指在数据容灾的基础上,在异地建立一套完整的与本地应用生产系统相当的备份应用系统(可互为备份)。在灾难情况下,远程系统迅速接管业务运行。
    数据容灾是对灾难抵御的保障,而应用容灾则是容灾系统建设的目标。

2.1.1 数据容灾

    所谓数据容灾,就是至少在异地保存一份可用的关键业务数据,该数据可以是与本地生产数据的完全实时复制,也可以比本地数据稍微落后,但一定是可用的。
    采用的主要技术是数据备份数据复制技术。其中数据复制技术,按照实现的技术方式来说可分为同步传输异步传输

2.1.2 应用容灾

    所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统。建立这样一套系统相对比较复杂,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间良好协调。

2.1.3 应用容灾的机制

    在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力
    也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制定机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力和本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。

2.2 重要指标


2.2.1 RTO

    恢复时间目标(Recovery Time Objective,简称RTO)是指灾难发生后,从IT系统宕机导致业务停顿时刻开始,到IT系统恢复至业务恢复运营为止,此两点之间的时间段称为RTO。

2.2.2 RPO

    恢复点目标(Recovery Point Objective,简称RPO)是对系统和应用数据而言,指的是恢复业务系统所能容忍的数据丢失量。

3 灾备方法论

    容灾系统建设包括分析、设计和实施三个阶段。共7个步骤,即“风险分析”、“业务影响分析”、“可恢复性评估”、“指定恢复策略”、“容灾方案设计”、“灾难恢复预案设计”、“容灾演练和维护”。

图3.1 容灾方法论

3.1 风险分析

  • 分析可能对用户业务系统和IT系统的安全性造成威胁的各种风险因素,并提出相应的对策和改进方案。
  • 定义出对于风险的预防措施

3.2 业务影响分析

    业务影响分析(Business Impact Analysis,简称BIA)。
    指收集、分析、汇总以及排序当信息系统一旦遭遇灾害对各项重要关键性业务的影响程度,并依据优先级提出恢复策略建议。
  • 确定用户的关键业务流程
  • 定义各关键业务中容许中断的最长时间
  • 确认各关键业务数据丢失的可容许程度

3.3 可恢复性评估

    从IT架构、平台、技术、基础设施、组织结构、恢复流程等各层面来评估用户IT目前的恢复能力。
    评估IT作业目前是否能够恢复、需要多少时间恢复、以及可能的数据丢失数量。

3.4 指定恢复策略

  • 依据前述各项分析,配合目前技术,提出适当的灾难恢复策略。
  • 召开研讨会确认恢复策略。

3.5 容灾方案设计

  • 根据恢复策略来设计最适合的容灾技术方案。
  • 各种容灾解决方案的比较。
  • 在设计容灾方案时,应综合考虑基础设施、硬件平台、软件技术、网络配置、IT组织、技术恢复流程等方面。

3.6 灾难恢复原设计

  • 定义可被接受的灾难恢复的规范
  • 定义必须遵循的恢复程序,包括IT系统和相关设施
  • 设计相应的容灾组织结构和人员职责

3.7 容灾演练和维护

  • 通过容灾演练、测试确保灾难恢预案的有效性。
  • 灾难恢复预案的维护包括:
    • 日常计划维护
    • 根据容灾演练结果的维护
    • 由于各项变更而产生的维护

4 系统高可用架构设计流程


4.1 系统的可用性评估


图4.1 系统的可用性评估

4.2 高可用性架构设计流程


图4.2 高可用性架构设计

4.3 高可用性模型


图4.3 高可用性模型

5.灾难恢复规范


5.1 六个灾难恢复等级

  • 等级六:数据令丢失和远程集群支持
  • 等级五:实时数据传输及完备设备支持
  • 等级四:电子传输及完整设备支持
  • 等级三:电子传输和部分设备支持
  • 等级二:备用场地支持
  • 等级一:基本支持

5.2 容灾的指标要求


图5.1 容灾的指标要求

5.3 容灾管理要素

    七大技术管理要素:
  • 灾难恢复预案
  • 运行维护支持
  • 技术支持
  • 备用基础设施
  • 备用网络系统
  • 备用数据处理系统
  • 数据备份系统

5.4 容灾管理


图5.2 容灾管理

6 容灾建设技术

  • 数据库复制技术
  • 主机卷复制技术
  • 磁盘到磁盘的复制技术
  • 虚拟存储层的复制技术

7.容灾建设规划要点


7.1 灾备实现方法论

  • 分析评估:包括风险的分析、业务影响的分析和当前环境的分析。
  • 设计实施:包括容错策略的制定、容灾方案的规划和实施。
  • 维护管理:包括灾难恢复原的设计和管理。如何实现灾备/备份和其他资源的统一管理。

7.2 灾备建设目标和范围

  • 核心业务系统
  • 周边业务系统
  • 应用级容灾还是数据级容灾
  • RPO和RTO指标

7.3 容灾技术路线选型依据

  • 复制数据类型要求:数据库、文件系统
  • 链路带宽
  • 是否要求主机、存储异构
  • 传数距离
  • 是否要求双活
  • RTO、RPO要求

7.4 容灾恢复预案的规划

 
图7.1 容灾恢复预案的规划

7.5 灾难恢复计划的组织机构


图7.2 灾难恢复计划的组织机构

没有更多推荐了,返回首页