灾备详谈1

年轻，不是你努力而得来的奖赏

已于 2022-05-19 16:03:45 修改

阅读量2.8k

点赞数

分类专栏：灾备-备份-双活文章标签：数据库 database

于 2022-05-19 15:03:28 首次发布

本文链接：https://blog.csdn.net/wnagshuihua/article/details/124856456

版权

本文详细介绍了灾备的重要性，包括数据备份、灾难恢复衡量指标RTO和RPO，以及数据级、应用级和业务级灾备的差异。接着，探讨了数据复制技术的多种类型和实现方式，如同步与异步复制、快照技术以及数据一致性管理。此外，还涉及了切换技术，包括网络切换和应用切换，以及重复数据删除、数据加密传输技术和不同存储形态的灾备应用。最后，讨论了数据库分类及其容灾策略，如Oracle、SQL Server、MySQL、MongoDB和Redis的容灾方式。

摘要由CSDN通过智能技术生成

1.4.4 三种灾备等级的 RTO 与 TCO 对比

第二章灾备关键技术分类

2.1 数据复制技术

2.1.1 基于主机操作系统的数据复制

2.1.2 基于应用和中间层的数据复制技术

2.5.2 文件存储与网络附加存储 (NAS)

2.5.3 对象存储与分布式存储架构

第一章灾备行业基础知识概述

1.1 灾备的重要性

美国德克萨斯州大学的较早的一次调查显示 :“只有 6% 的公司
可以在数据丢失后生存下来、43% 的公司会彻底关门、51% 的公司会在两
年之内消失。”

另一份针对这一课题的研究报告也显示：在灾难之后，如果
无法在 14 天内恢复信息作业，有 75% 的公司业务会完全停顿，20% 的企业
在两年之内被迫宣告破产。美国明尼苏达大学的研究也表明，在遭遇灾难的
同时又没有灾难恢复计划的企业中，将有超过 60% 在两到三年后退出市场。
而随着企业对数据处理依赖程度的递增，该比例还有逐渐上升的趋势。
IDC 在全球范围内，

针对多个行业的中小型企业（员工数小于 1000 名）
的调研显示，近 80％的公司预计每小时的停机成本至少在 2 万美元以上，
而超过 20％的企业估算其每小时的停机成本至少为 10 万美元。
2016 年灾备行业的一份可用性报告显示：企业每年因应用停机所造成
的损失达到 1600 万美元，可用性差距进一步扩大。

报告指出，尽管去年发
生了诸多备受瞩目的停机事件，但依然没有引起足够的重视。全球 84% 的
资深 IT 决策者（ITDMs）承认，他们正在经历“可用性差距”的困境，这
一数字较之 2014 年增长了 2%。

1.2 数据备份

数据备份是容灾的基础，是指为防止系统出现操作失误或系统故障导致
数据丢失，而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它存
储介质的过程。
按照备份数据量，可以分为：全量备份、增量备份、差量备份。

全量备份——用存储介质对整个数据及系统进行完全备份。这种备份方
式的好处是很直观，容易被人理解，易恢复；缺点是在备份数据中有大量重
复数据，由于需要备份的数据量相当大，因此备份所需时间较长。

增量备份——每次备份的数据只是相当于上一次备份后增加和修改后的
数据。这种备份的优点很明显：重复数据少，即节省磁带空间，又缩短了备
份时间；缺点在于当发生灾难时，数据恢复比较麻烦。

差量备份——是拷贝所有新产生或更新的数据，这些数据都是最近一次
全量备份后产生或更新的。

增量备份与差量备份的区别是，增量备份判断数据更新标准是依据上一
次备份检查点，而差量备份一定是依据全量备份检查点。如没有全量备份，
就没有差量备份。差量备份的主要目的是限制完全恢复时使用的介质数量。

本地容灾，一般指主机集群，当某台主机出现故障，不能正常工作时，
其他的主机可以替代该主机，继续进行正常的工作。

异地容灾，是指在与生产机房有一定距离的异地建立与生产机房类似的
信息平台（备份中心），并采用特定的技术将生产中心的数据传输到该备份
中心，从而在生产中心发生较大的灾难如火灾或地质灾害时，仍能对生产数
据进行保护的容灾系统。

备份与容灾的区别：备份是为了应对灾难来临时造成的数据丢失问题，
容灾是为了在遭遇灾害时能保证信息系统能正常运行，帮助企业实现业务连
续性的目标。

1.3 灾难恢复衡量指标

RTO（Recovery Time Objective）恢复时间目标
在运行中断情况下，基于可接受的停机时间和可接受的性能水平所制定
的重建和恢复功能或资源的时间目标。根据标准定义，RTO 是从中断时刻
到恢复至可接受水平所需的时间，这不仅包含了容灾恢复的时间，还包含了
宣布灾难之前的应急处置和判断决策等时间。而且 RTO 针对的是造成中断
的事件，并不一定是灾难事件。RTO 值越小就意味着所要求的恢复能力越强。

RPO（Recovery Point Objective）恢复点目标
为使活动能够恢复进行，而必须将该活动所用的信息恢复到某时间点。
“恢复点”是指中断前最后一次备份数据的时间点，这意味着当需要恢复时
所需修复或追补的数据量。如果 RPO 等于零，就意味着要求数据零丢失。
否则为了恢复业务处理，就需要对丢失数据进行修复或追补。

RTO 针对的是服务丢失，RPO 针对的是数据丢失，两者是衡量容灾系
统有两个主要指标，但它们没有必然的关联性。

1.4 灾备的三个等级

1.4.1 数据级灾备

数据级灾备强调数据的备份和恢复，包括数据的复制、备份、恢复等在
内的数据级灾备是所有灾备工作的基础。在灾备恢复的过程中，数据恢复是
最底层的，比如数据必须完整一致后数据库才能启动，之后才是启动应用程
序，应用服务器接管完成后，才能进行网络的切换。这个流程需要严格的执
行才能确保灾备的顺利切换。很多应用在切换的过程中之所以会失败，数据
“没起来”是其中一个重要的因素之一。
数据级灾备的关注点在于数据，即灾难发生后可以确保用户原有的数据
不会丢失或者遭到破坏。较低级的数据级灾备可通过将需要备份的数据用人
工方式保存到异地来实现，比如将备份的磁带定时运送到异地保存。较高级
的数据灾备方案则依靠基于网络的数据复制工具，实现生产中心和灾备中心
之间的异步 / 同步的数据传输，比如采用基于磁盘阵列的数据复制功能（基
于数据库的复制方式可分为实时复制、定时复制和存储转发复制）。

1.4.2 应用级灾备

应用级灾备强调应用的具体功能接管，它提供比数据级灾备更高级别的
业务恢复能力，同时也是业务级灾备的基础，只有具体应用得到恢复，后续
的业务才能有效进行。
应用级灾备是在数据级灾备的基础上把应用处理能力再复制一份，也就
是在异地灾备中心再构建一套支撑系统。该支撑系统包括数据备份系统、备
用数据处理系统、备用网络系统等部分。应用级灾备需要具备提供应用接管
的能力，即在生产中心发生故障的情况下，能够在灾备中心接管应用，从而
尽量减少系统停机时间，提高业务连续性。