与IT处理事务中的大多数事情一样,这个问题其实是很重要的。但是,想要真正找寻到正确的答案就是要渠道“工作真正发生的地方”。
在我与广大读者朋友们深入探讨这个问题之前,请让我先行讨论一个更深的思考领域,然后再来解决另外一个问题:所谓“成熟的”数据中心到底意味着什么,为什么有人想要这样的数据中心呢?
虽然这个答案可能看起来很明显,但我的建议是:“足够好”的数据中心可能就已经足够了。就像Malcom Gladwell在《Outliers》这本书中所提出的那样,花费10,000小时才能成为公认的业界领域专家和领导者,与一般有能力胜任的普通从业者之间的相对成本差距是多少?虽然真正的世界级的卓越的业界领域专家是令人羡慕的,但经常也是不必要的。没有远大抱负的人可能并不想要成为世界级的专家;他们只想要和家人朋友一起度过每个美好的夜晚。
同样,如果我们将数据中心的成熟度与卓越的业界专家类比的话,而且完全成熟(即世界级)的数据中心的成本会相当高,无论我们所谈论的是货币成本、时间成本、员工投入或其他方面的参数成本——那么,我们要问的另一个问题便是:“世界级的数据中心是否满足企业的业务需求?”通常情况下,答案是否定的。您企业的数据中心其实只需要为满足您具体的客户(内部的同事和外部的客户)的需求做好准备即可获得预期的服务水平。
所以,我想澄清的一点是:当我提及“成熟”这一点时,我并不会将其当作“完美”的同义词;相反,我的意思是足够稳定和稳健运营的数据中心,以满足您企业的业务需求,并由可用的员工来维护。而在了解了这一点的前提下,数据中心如何提供有效的服务以及如何以企业现有员工的服务水平实现可维护性对于在数据中心环境中管理或工作的任何人来说都是及其重要的。
能力成熟度模型
庆幸的是,有一个确定成熟度的模型,业界将其称之为能力成熟度模型(Capability Maturity Model,CMM)。 CMM现在已被广泛应用于软件开发(即其最初被提出的领域),产品交付和摩天大楼建设等等方面。
不幸的是,与信息技术基础架构图书馆(ITIL),面向服务的架构(SOA)和六西格玛一样,CMM的使用通常都不太理想。毕竟,运行一处数据中心就像开发软件应用程序一样。要清楚的是,我不是说ITIL、SOA、六西格玛或CMM是坏的框架。他们是非常好且相当有用的。但并非在所有情况下都适用。
所以,尽管了解您企业数据中心的成熟度的相对水平很重要,但是通过使用CMM来了解其实并不是最好的。因此,我想提出一些我个人关于成熟度模型的想法,该想法涉及如何创建一个对您企业的特定环境有意义,有相关性且更为有效性的模型。
创建一套您企业自己的数据中心成熟度模型
数据中心成熟度模型的目标是为了帮助您了解企业数据中心在一个连续统一体上所处的具体位置,其中一方面没有复杂性的,而另一方面则是完全最优的。这意味着您需要仔细考虑重要的类别。
例如,在许多情况下,清洁程度肯定是包括从手术室到商业化餐厅厨房的重要成熟度考察类别,但其可能并不是数据中心的关键指标。另一方面,组织并规划显然是一个好的开始。但是您的下一个想法必须是“组织规划什么?”您只是在谈论物理方面,比如把所有的备用电缆按照颜色进行编码,按长度进行排列,以方便随时可用?或者组织的概念是否可以扩展到手册、工具、设备、工作人员进度表、流程审查,甚至在线常见问题和知识库?
归纳出三到五类的成熟度考察类别不应该是那么难,您只要回顾考虑每天所处理的问题、任务和活动的类型即可。但是,当您想到更细节的问题时,需要尽一切努力把它们分类归纳成特别强调的纪律。这方面的示例包括:
可视化:您可以识别和查看数据中心所有方面的状态吗?这涵盖了包括从地板和机架地图(静态或交互式)到对于当前硬件、软件、事务等状态的监控显示。
容量:您是否知道您数据中心油箱里有多少油料?您是否知道您数据中心的耗油速度有多快?您是否可以根据目前的运行状况以及通常在一天、一周和一个月的不同时间的运行状况,大致估算出什么时候一箱油可能会被耗尽?同样,这些问题也适用于存储、处理器、内存、负载平衡等。
响应:当发生问题时,您如何知道?有什么工具来促进初始反应——包括自动修复、升级、故障排除和最终保持平均修复时间(MTTR)?
一旦您企业就此制定了成熟度类别,您就可以提出一些问题,让您得以能够评估这些领域的成熟度/复杂性/准备状况。您应该避免设置是、否或者SAT风格的问题。用选择答案的方式来替代需要就答案进行排序的问题。通常,我的目标是就该选择题提供一到五个备选答案来促进找出问题的答案或问题的陈述。然后将这些答案结构化,使其中一个备选答案能够一眼就被排除,而把中间其他几个答案设置为接近最佳答案,但不是最佳的。如下,我会解释这样做的原因,例如:
当我晚上睡觉时,我相信我可以看到我企业数据中心的基础设施发生如下的事情的比率:
1、0-25%(我永远无法睡觉!)
2、26-50%
3、51-75%
4、76-95%
5、96-100%
我们的工具可以帮助大大减少MTTR(较之没有这些工具的情况下):
1、0-5%(什么是MTTR?)
2、6–25%
3、26-50%
4、51-75%
5、76-100%
我们通过如下方式应对容量能力方面的挑战:
1、观察系统发生的崩溃情况
2、每名工作人员保持对所管理设备或被分配系统的状态的密切注意
3、定期检查系统,记录数据并得出结论
4、使用数据创建一个简单的直线投影的整体用法
5、使用连续自动数据收集来计算每个元素的基线,用于在资源可能耗尽时进行投资,并根据“正常”而不是固定数量设置警报阈值
将问题和答案进行微调后,请发送给您数据中心的团队。如果您认为采取匿名回答的方式会有助于获得更周到和更为诚实的回应的话,也不妨采用,但每个人都应该帮助改善数据中心的运营环境。 一旦收集到了员工们的答案之后,就按一致的比例评估结果。然后,您可以跟踪每个问题的平均结果,但也要确保每个类别的单个最终平均值。
最后,我的推理也与您如何呈现结果有关。 尽管事实上,每个问题——如果您遵循了我上文中的介绍的话——会产生一个整齐的五步阶梯,例如在典型的CMM模型中提出的一个阶梯,这不是您应该显示的结果。 相反,其应该如下图所示:
这种展示的好处是,您可以看到一个领域的优势有助于弥补其他领域的差距。或者更现实地说,您的超级竞争上层管理是否愿意看到上面雷达似的显示图?当然,我们都想成为超级英雄。但是,我们通常并不愿意付出上述所有五项所需的成本,无论是意味着需要更新的设备,更强大的监控,聘请更专业化的员工,更高级别的供应商SLA等。更强大的监控并不需要花费很多,所以您企业应该总是愿意尝试使用最好的工具!
显然,创建一套成熟度模型并分析数据与实际的数据中心运营状况的改善并不相同。但在某些情况下,“我们如何改进”的答案可能是显而易见的。但是,具有映射到成熟度模型的评估工具创建了一个可重复的过程,可以让您不仅可以识别需要改进的领域,还可以评估您改进的进展。
同时,有着良好的记录,可重复的流程首先必须是数据中心成熟度的重要组成部分。