企业IT运维可用性能力建设（技术+管理手段）

最新推荐文章于 2024-11-08 14:24:57 发布

米朵儿技术屋

最新推荐文章于 2024-11-08 14:24:57 发布

阅读量164

点赞数

分类专栏：数据挖掘与知识基础设施建设专栏文章标签：运维

本文链接：https://blog.csdn.net/weixin_70923796/article/details/131156453

版权

数据挖掘与知识基础设施建设专栏专栏收录该内容

61 篇文章 2 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了企业IT运维中提高可用性的重要性，从技术手段和管理方法两方面阐述了可用性能力建设。技术手段包括架构的高可用性标准化、持续优化和工具建设，管理手段涉及业务连续性管理和应急演练。通过这些策略，企业可以有效提升运维的可用性，降低业务中断的风险。

摘要由CSDN通过智能技术生成

【摘要】可用性是运维KPI或SLA中很重要的一个可量化指标，在基本的底线保障的基础之上，将可用性能力的建设提炼出来，以横向的角度进行建设，有利于集中力量，积累最佳实践，是一项投入产出比很高的工作。

一、可用性的思考

业务的不断演进，系统的数据量不断扩大，技术栈越来越复杂，系统模块越来越多，造成信息系统中断的事件的风险场景越来越多，中断事件的频率和种类持续增长，且有相当一部份事件会造成业务中断，可用性问题越来越严峻。一个严重的业务可用性问题通常是多个层面上的可用性保障均失效的结果，比如：架构的高可用能力，监控能力、自动化工具能力、应急能力等，所以说运维组织的事件管理能力特别的重要，应该本着“不浪费故障”的理念去深挖故障背后的问题，不断的完善每个环节的不足（当然，这里不提倡追责的方式分析故障）。可以用“海恩法则”来进一步解释可用性问题由量变向质变转变的过程：