大型集团数字化转型中的灾备建设需求分析

一、需求背景

集团公司自开启数字化转型以来,已完成集团的内部业务(主要包括组织、流程、采购、财务、生产制造、库存、计划等)和外部业务(主要包括渠道、营销、销售、客户体验和服务等)的数字化转型打破了数据和信息孤岛,全流程支撑集团的经营和管理,极大的提高了组织和经营效率。

集团的数字化转型投资规模大、持续时间长,主要集中在支撑集团经营和管理的IT信息系统群、承载IT信息系统的各类基础设施、保护IT信息系统和数据的各类信息安全建设等三个方面。经过数年的集团高管牵头、信息科技部门数十人的群策群力,积极引入知名IT咨询机构的外脑力量,已经实现集团的数据实时化、运营精细化、应用智能化和决策科学化的数字化转型,目前主要数字化应用和IT基础设施建设情况如下:

  • 数字化信息系统群

集团官方网站群、集团供应链管理系统(SCM)、企业资源计划管理系统(ERP) 、企业生产过程执行管理系统(MES)、生产设备智能化联网管理系统(DNC)、生产数据及设备状态信息采集分析管理系统(MDC)、制造过程数据文档管理系统(PDM)、办公管理系统等;

  • IT基础设施

Vmware虚拟化、Nutanix企业云、高端X86物理服务器、SAN存储和NAS存储;

  • 网络安全设施

防火墙、入侵检测、日志审计、数据库防泄密、终端安全和综合安全管理平台系统;

二、需求论证

数字时代,应用系统已经成为集团的生产工具,数据已经成为集团的核心资产,在完善了数字化信息系统、IT基础设施和网络安全建设后,在深度的思考如何提升作为生产工具的数字化信息系统的服务连续性、如何提升作为核心资产的数据防丢失、防勒索的保障能力,应对天灾(水灾、火灾...)、人祸(误操作、人为删库跑路、停止服务等)、主机故障、系统故障(Oday漏斗、系统BUG等)、网络攻击(勒索病毒)等造成数字化信息系统停机和数据丢失的灾难,从以下几个方面开展分析:

  • IT基础设施角度,风险分析

虚拟化、超融合云将计算、存储和网络资源通过云计算技术进行资源池化,硬件单节点层面提供了冗余环境,极大的提高了主机的可靠性,但由于虚拟化和超融合云上承载着集团的所有的办公室、管理和经营业务的处理,还需要就云基础设施如服务器硬件故障的小概率事件的挑战做出应对。其次,数据存储集中且分布式碎片化带来的风险成倍增加,数据集中到一个FC、本地存储上后,存储载体本身就是一个单点的风险点,一但发生任何存储相关的故障几乎都是全局瘫痪。

  • 数字化信息系统角度,风险分析

数字化信息系统数量多、类型多、分别由不同的开发商研发,基于业务的实际情况出发,业务系统的架构和部署方式多样、复杂,不可否认的是各类数字化信息系统在为集团的数据实时化、运营精细化、应用智能化和决策科学化提供了重要的支撑和保障,但由于系统规模庞大、开发工作量大、开发工作人员众多水平乘次不齐、底层架构设计难度高等因素,数字化信息系统自身存在一定概率的系统故障、逻辑错误、一致性错误等可能,由于数字化信息系统已经成为集团的生产工具、生产线,务必要就数字化信息系统的自身的风险防范出发,构建统一的灾备系统来应可能的系统故障引发的停止服务、数据丢失的风险。

  • 网络安全系统角度,风险分析

网络安全建设重要性和投资强度无需质疑,集团建设基于已知威胁的风险防御和未知威胁的检测/响应的全方位网络安全系统后,发现“0 Day漏洞”无法避免、“网络安全意识弱”引发安全事件、再多的网络安全建设也无法杜绝安全事件,无法避免因为网络安全事件例如勒索病毒、恶意攻击等,也无法避免因误操作、人员网络安全意识弱带来的系统停止服务和数据丢失灾难。

因此,随着数字化信息化系统与集团业务发展的不断深入融合,信息化系统成为组织的生产生命线,集团决定需要构建统一的灾备系统来应对IT基础设施、数字化信息系统和网络安全系统等多维度风险可能带来的系统停止服务、数据丢失的风险,考虑如下:

  • 超融合、虚拟化、物理机上的业务系统数量和数据量的与日俱增,原有备份机制受限因素较多、操作复杂、备份效果不可见等挑战急需面对;

  • 灾备系统是数字化转型最后的防线,必须确保100%可靠,集团制定了完备的备份数据验证、演练规章制度,需选用一套能够极简运维,快速检验备份数据可用性和灾备系统的可靠性的灾备系统来支撑日常管理工作的需要;

  • 生产管理系统时刻支撑着集团的生产运营,系统服务连续性已经成为企业平稳运行的生命线,需建设敏捷快速的高可靠应急容灾方案,任何时刻都需要保证生产管理系统的服务连续性;

  • 满足等保2.0相关规定,合法合规的同时,确保切实有效;

三、需求制定

集团需要建设一套有效的灾备系统,日常运维的每一项工作都需要经过制定计划、执行计划、检查计划、调整并改善计划四个阶段,通过实施并熟练运用在工作中不断提高效率,更加有效地驾驭灾备系统抵御突发的系统和数据灾难。

  • 灾备系统架构考察

  • 备份一体机堆叠可靠性低

集团数据中心规模大、重要性高,需要一套高可靠的灾备系统时刻保护数字化应用和数据,采用传统备份软件/备份一体机堆叠的方案,各备份系统承载的备份任务割裂,若其中某台故障其承载的备份任务将终止、部分主机失去保护、已备份的数据不再可用。

  • 备份一体机堆叠扩展非线性

随着集团的数字化转型深入和业务不断快速发展,灾备系统需要进行扩容和升级,传统备份软件/备份一体机的扩展只能添加新的设备与服务进行简单堆叠,无法将新增设备与原计算、存储资源进行有效整合,资源扩展非线性,灾备系统扩展性受到限制。

  • 备份一体机堆叠灾备性能不足

集团数据中心物理机和虚拟机主机数量多,对灾备系统性能要求高,采用备份软件/备份一体机堆叠的方式,灾备性能受限于单台实体服务器的资源规模,且存在个别主机资源耗尽而其他主机空闲的状况,资源无法得到有效利用,导致灾备系统性能无法满足用户需求。

  • 备份一体机堆叠管理难

1、集团数据中心业务系统数量多、系统架构复杂,需要灾备系统能够兼容各类主机、应用系统、数据库以及各种系统架构、数据类型,堆叠建设缺乏统一管理,将极大增加运维人员工作量;

2、灾备任务有效性、执行情况等信息掌握难。复杂环境下备份任务数量多,资源整合难,对灾备云备份任务RPO达标率、备份数据是否完整等关键信息掌握难,灾备系统任务异常时难以及时察觉,故障时数据恢复失败;

3、灾备管理过程复杂。复杂环境下同时完成三百多台主机的灾备管理,预案编排、应急恢复等任务环节繁琐、工作量大,任一环节的疏忽都会导致业务系统恢复时间无限延长。

四、备份、容灾和应急恢复能力考察

1、备份

备份是基础能力,是灾备建设的第一步,在考察备份的时候要从操作简单、广泛的兼容性、更高的备份质量等维度去考虑产品/方案在备份基础能力上的技术先进性,要避免基于不同应用系统、文件系统、业务逻辑需采用不同的备份配置、操作等“低级”劳动;

2、验证

验证是灾备系统运维的需要,是备份数据可用性、可恢复性、灾备系统运行可靠性、有效性保障的唯一手段,在考察灾备系统的验证能力的时候要从:简便性、操作复杂性、对技术能力要求高低、验证是否能够智能自动执行等角度去考察产品/方案的技术先进性,要避免发生“验证一个数据库,需要手工搭建数据库环境,再将备份数据导入到数据库中”诸如此类的“高技术要求”、“耗时耗力”的日常运维工作的发生;

3. 演练

灾难演练是构建有效灾难应急处置能力的唯一方式,通过灾难演练模拟将遭遇故障/灾难后的应急容灾、灾难重建的流程梳理清晰,将各个环节需要的向上汇报、指令下达、人力和资源匹配、操作执行、切换恢复、耗时预期、难点痛点等复杂的逻辑梳理清晰、执行训练,方可提升组织的应急能力,在考察演练能力的时要考虑是否需要搭建演练环境、是否需要具备应用系统和数据库的专业技术能力、是否需要面临异构主机的驱动适配的巨大挑战、是否需要耗费长(甚至难以忍受)的演练时间等;

4. 容灾

应急容灾时灾备系统建设的重要价值展现,在发生系统故障/数据灾难时能够快速的使用故障发生前最新/损失最小的备份点数据,通过各种容灾方式提供灾难应急服务。在考察容灾能力的时需要考虑:应急容灾是否需要预置环境?容灾虚拟机的性能和可靠性如何?是自启虚拟机还是第三方专用的虚拟主机/物理机?若为自启的虚拟机厂商技术积累还是开源KVM?应急容灾时增量数据是否有保护机制?应急容灾后(包含增量数据)回切到生产环境的技术复杂度、耗时长短等等。

5. 恢复

灾难恢复到生产环境中是灾备系统建设的目标,在发生系统故障、应急容灾后,均需恢复到生产环境中,考察时需要考虑如何判断故障原因以便针对性的恢复操作?如何快速/便捷选取最新数据?灾难恢复的环境的搭建技术难度和复杂性、耗时长短(包括应用系统、配置、数据库等)?在搭建应用环境的时异构主机驱动适配的难点是否有足够的技术储备能力被解决、搭建好灾难恢复环境的时候恢复数据要耗费多少时间业务是否能够忍受中断这么长的灾难恢复时间等等。

五、科力锐灾备系统

科力锐基于云架构的灾备系统,简单易得、弹性扩容,灾备任务自动负载均衡和故障转移,分布式灾备数据存储,极大的提高了灾备系统自身的性能、可靠性和扩展能力。

科力锐灾备系统基于PDCA循环的“备份-验证-演练-容灾-恢复”的灾备逻辑设计,能确保灾备系统的有效、可靠,且通过简单易得、敏捷快速的遵循PDCA循环的灾备管理,灾备系统可信可靠,提供更高质量的备份、更快的灾难恢复,为数字时代的应用系统和数据保驾护航。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
灾备系统建设后的运维工作主要包括以下几个方面: 1. 监控和维护:在灾备系统建设后,需要建立完善的监控和维护机制,对系统进行实时监测,并对系统进行定期维护和保养,保证系统的稳定性和可靠性。 2. 数据备份和恢复:在灾备系统建设后,需要对系统进行定期的数据备份和恢复测试,以确保备份数据的完整性和可用性。同时,需要建立紧急数据恢复机制,在系统出现故障或灾害时,能够迅速恢复数据和系统功能。 3. 容灾演练:为了确保灾备系统的有效性和可靠性,需要定期进行容灾演练,模拟不同的灾害情况,测试系统的应急反应和恢复能力。通过容灾演练,可以及时发现系统存在的问题,并对系统进行改进和优化。 4. 安全管理:在灾备系统建设后,需要加强系统的安全管理,确保备份数据和系统功能的安全性。需要对系统进行安全漏洞扫描和修复,加强权限管理和访问控制,防止未经授权的访问和攻击事件。 5. 系统优化:在灾备系统建设后,需要对系统进行优化,提高系统的性能和稳定性。需要定期清理系统垃圾、优化系统配置和调整系统资源分配,以提高系统的运行效率和响应速度。 综上所述,灾备系统建设后的运维工作包括监控和维护、数据备份和恢复、容灾演练、安全管理和系统优化等多个方面。通过对系统进行全面的运维工作,可以保证灾备系统的可靠性和稳定性,提高系统的运行效率和响应速度,确保在系统出现故障或灾害时能够快速恢复和正常运行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值