2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举行,大会邀请了来自通信、金融、医疗、制造行业等100余位SRE领域专业人士参加,本次大会特别设立了主题为“数据中心运维的新发展”的分会场,由SRE专委会和广通优云联合出品。邀请来自数据中心领域不同行业的产学研用的专家,就业务稳定性保障、智能化运维、可观测性等热点内容的技术发展及应用实践展开讨论。广通优云副总裁兼首席架构师 张凯带来《数据中心服务能力成熟度 新标准简介及应用展望》主题演讲。
广通优云副总裁兼首席架构师 张凯
广通优云副总裁兼首席架构师 张凯,进行《数据中心服务能力成熟度新标准简介及应用展望》的主题分享,作为数据中心服务能力成熟度国标修订工作组首席专家,张凯首先介绍了本次国标修订的主要内容,包括能力模型框架、能力全景图、评价模型框架等;其次从数智运营驱动数据中心数字化转型角度,在整体规划上重点突出平台保障及目标拆解,并详细讲解了“故障发现、定位和解决”,“流自一体能力”,“CMDB建设、运营、消费能力”等三大运维核心能力的建设要点;最后从自主信创、生态构建、标准认证、实践驱动等角度,分享如何驱动数据中心服务能力成熟度的提升。
众所周知,随着数字化转型步入深水区,业务需要创造更多的价值,数据中心运维则承接着支撑业务运转的责任,历时几十年,已沉淀一套成熟的业务模式和评价方法。
《数据中心服务能力成熟度模型》国标(以下简称成熟度国标)是数据中心业务的高度抽象,它全面涵盖了数据中心业务的管理和技术要求,并为其发展提供了衡量指标和评价体系。通过这个标准,数据中心业务可以获得清晰的指引,从而更好地实现自身的优化和发展。自2016年首次发布以来,获得监管单位认可和业内广泛应用。
随着新技术的发展和数字化转型深入,数据中心运维的问题显现:管理太重,技术太弱,导致无法较好实现技术驱动,彰显业务价值。广通优云作为牵头单位与首席专家所在单位,与包含中信银行、建设银行、农业银行、中国银行、海关总署、中国气象局等100+头部客户,全力推动成熟度国标修订改版,持续助力行业共识与专业成果涌现。
本文根据其演讲整理而成,有删改。
一、GB/T33136构建数据中心全局视野
(1) GB/T33136能力模型框架
成熟度新标准通过生存能力、发展能力和保障能力,构建了一个完整的业务闭环。生存能力就像汽车的发动机,为数据中心提供前进的动力,明确了数据中心应通过哪些流程和技术来获得竞争优势。发展能力则像是方向盘,指引数据中心发展的方向和程度,确保整个业务朝着正确的目标前进。而保障能力则如同汽车的刹车系统,提升运营质量,有效防范运营风险,支撑数据中心业务的稳健发展。
纵观成熟度新标准全景能力域,可以发现新标准明显的一个点:新标准强调管理是基础,而技术则是提升上限的关键。
新标准分为三个一级能力域:战略发展、数智运营和保障驱动。在战略发展层面,关键在于做好战略管控、传承创新和稳健发展,以确保数据中心业务的长远规划;数智运营层则取代了原先的运营保障,尤其是技术维度新增应用、系统、网络、安全运营管理等,强调大数据及工具平台赋能,在管理守住底线的基础上,重点突出了通过技术驱动和引领,不断提升整个业务能力的上限;保障驱动层面则保留了质量管理、安全内控和组织驱动等核心要素,这一层面确保了数据中心业务的稳定运行。
各能力子域之间相互协同、相互作用,共同实现了数据中心业务的“管理成熟、技术先进,满足相关方诉求”的目标。这一全景图不仅突出了业务的核心价值,更为数据中心的发展提供了全面、具体的指导,确保其持续稳定地发展。
(2)GB/T33136评价模型框架
成熟度新标准基于业内最佳实践总结提炼出一套能力项分级标准,分为:标准化、规范化(三级符合国标)、数字化、自动化(四级行业标杆)和智能化、生态化(五级引领行业)。能力项评价要素可包括:PDCA过程、技术支撑、资源配置和价值效果。基于分级标准和评价要素,可以得出各能力项分数及级别,分为:初始级、经验级、规范级、先进级和引领级,35个能力项通过加权平均可以得到数据中心整体成熟度,分为起始级、发展级、稳健级、优秀级、卓越级。新标准评价模型设有专项服务能力成熟度和能力项成熟度,可支持35个能力项每个项独立或若干能力项联合持续改进提升。
二、数智运营驱动数据中心数字化转型
回顾数据中心数字化转型的历程,由最初的「技术运维阶段」,应用、系统、网络、安全和环境各自发展,但由于短板效应,导致可用性较低。转为以ITIL为核心的「服务运营阶段」,以服务运营视角总结共性,保障管理底线,取得显著成效。但随着数字化的发展,仅满足共性的方式往往与效率冲突,且无法满足业务个性化需求。「数智运营」的提出,能够实现共性+个性同步发展,运用平台工程,将共性共享、复用做平台底座,而个性化需求通过搭积木、组合式场景化进行创新,做到千人千面。并通过技术不断延伸上限,驱动数据中心“数字化、自动化、智能化、平台化、生态化”发展。
数智运营阶段,数据中心的数字化转型规划应达成3个核心目标,即:1-3-5故障处置要求,即1分钟发现,3分钟定位(定界),5分钟解决;降本增效,即提升流程管控质量及自动化覆盖率,实现流自一体基本覆盖;赋能减负,即结合管理和业务要求深化场景,实现端到端的IT价值赋能业务。
基于平台工程规划,实现六个统一:统一运营、分析及展示;统一配置、资产及知识;统一流程及自动化;统一监控、洞察及处置;统一运维大数据管理;统一管控及部署,数据中心建设整体从“稳定、安全、可靠”过渡到“体验、效率、效益”。具体落地层面,可以总结为数据中心运维三大能力的规划:
(1)可观测能力规划
故障发现、定位和解决历来是数据中心运营的重中之重,从分散监控到如今的全链路监控,可观测能力构建是一个系统工程,涉及人、技术、流程的充分融合,通过标准基线规则将日志、指标、链路全面整合,构建底层标准化、上层服务化模式,应用架构持续改进推进故障定界与隔离,基础设置推进故障规则自愈,实现故障的快速发现、定位(定界)、隔离和自愈等。与此同时,动态层,构建横向链路导航,实时监测业务全链路运行情况;静态层,打造纵向业务资源地图,建立资源图谱,构建应用地图,从技术侧整体支撑全链路监控体系化提升。
(2)流自一体能力规划
从流程自动化各自为政两层皮落地阶段,到以ITIL为核心的流程自动化紧密结合,一体化落地阶段,再到如今的业务即服务阶段,流程管理和自动化处置的融合是数据中心运维永恒的课题。未来数据中心运维一定是不断拓宽边界,往业务去延伸的。从业务视角出发,站在组织整体视角端到端打通流程和自动化,实现赋能减负,开放融合、平衡风险和效率,实现资源优化,在保证业务可用性的同时,拓展无限可能。
(3)CMDB建设、运营和消费能力规划
在配置管理层面,需站在全新视角,构建面向应用资源全生命周期管理的CMDB。整体围绕:建立IT统一、权威的配置管理;以应用为中心整合从研发、测试、运维各环节对配置信息的需求;基于资源的生命周期建设配置数据的流转通道,规范工具之间的交互;持续改进数据和信息质量、保障数据准确性;最大化数据和信息资产价值的有效利用。
三、自主信创、生态构建
驱动数据中心行业成熟度提升
任一标准的制定,都期望得到行业内的广泛落地、应用和延伸。数据中心成熟度新国标的推广应用有两大抓手:自主信创和生态构建。在自主信创层面,基于能力项标准,归纳总结行业最佳实践及规范,完善管理、技术评价体系,明确成熟度体系,打造自驱的数据中心组织文化。在生态构建层面,通过不断吸纳行业优秀实践,建立数据中心行业成熟度指数,并于行业广泛推广,形成良性循环生态。
(1) 数据中心甲方实践服务能力成熟度提升
数据中心服务能力成熟度有如波动的曲面,而各能力项如曲面上的点,每个点相互关联和牵引,共同推进整个面的提升。成熟度新标准可以面向数据中心甲方中心领导、处室负责人、能力项负责人等不同角色驱动,推进数据中心服务能力成熟度、专项服务能力项成熟度和能力项成熟度的评价和持续提升,实现决策权的下放,驱动各能力项实践和数据中心服务能力成熟度提升。
(2) 数据中心供应商服务和产品成熟度提升
新版国标吸纳了甲方及乙方共同的实践经验,为业内供应商提供专业的成熟度指引和评价,打破了旧版标准局限于甲方的局限,当然供应商服务和产品成熟度认证需要有甲方应用对应成熟度等级的背书。
自2021年启动修订以来,成熟度国标改版积极适应业务应用场景的变革与行业环境发展的需求,历经数十次修订会议。近期,成熟度新国标顺利进入报批阶段,是数据中心行业成熟发展的又一里程碑。