冲突是事物发展的根源和动力。操作过程中的矛盾无处不在,既有业务和技术之间的矛盾,也有开发与维护的矛盾,数据中心内部也存在着矛盾,要通过发展才能解决。
当AIOps开始逐步深入各行各业,不同行业、不同企业的数字化差异开始显现,大部分企业的数据非常分散,数据治理对于业务导向性的场景化及工程化落地难度纷繁多变,因此下半场的AIOps逐渐步入“基于全链AI算法服务的场景弹性组合与闭环”阶段。
一,生产安全
数据中心的主要职责是安全生产,围绕安全生产三大目标:
高可用体系结构:高可用的IT基础结构保证了应用系统的可用性和连续性,包括:应用集群、系统热迁移、数据库群集、存储复制、物理备份等等。
有效的操作:在高可用体系结构的范围内,执行一些高效的操作,包括:资源供应,应用部署,日常更改,故障处理,数据治理等。
节省成本:在高可用性和高效性的情况下,最大限度地节省成本,包括资源优化,性能优化,以及对降低成本敏感的资源浪费。
运营效率
工作主要包括四个方面:
资源供应:以前就是针对每一次资源的应用,运维人员必须将机器上架、系统安装、存储配置、网络配置等一系列流程跑一遍,牵涉各专业人员协作,小企业少,两人搞定一切,大企业专业分工明确,这些工作需要多人协作,效率不能保证。目前正在通过云计算来提高效率,主要是池化和自动化,池化意味着提前准备好一批资源,避免每次申请都要做一次准备,自动控制就是通过自动流程来连接各个专业条线,避免通信费用的浪费,以及低效率的人工操作,提高工作效率和人员安全。
应用部署:以前就是开发完成交付测试,测试完成后组织投产,开始运行后进行运行,不同阶段人员互相割裂,应用发布部署效率低。DevOps目前主要通过DevOps提高效率,重点是连续的CI/CD,通过CI实现开发到测试的持续集成测试,实现开发到运营的连续系统部署,通过CD完成技术到业务的持续交付。
变更管理:以前是人工配合一些工具书,没有系统的思维能力,常常只见树木不见。通过云提高系统外部变更的效率,可以通过自动工具(如Puppet和Ansible)来提高系统内部的变更效率。
故障处理:以前就是接到监测告警,逐个专业分析原因,执行应急预案,但存在着许多问题,比如:缺少对故障的预测、错误的报告、分析慢,不能自我修复。目前通过AIOps来解决,实现故障预测、故障检测、根性分析、故障自愈,尽可能少人参与。
智能操作(AIOps)
IT运营经历了人工操作、自动化操作、智能化操作(AIOps)三个阶段。人为操作是指人工的协作脚本。自动操作是指系统工具的自动化、人工决策、机器执行。智能操作意味着机器决策的自动化,机器上的决策和执行执行执行。决定取决于推理,而在这一阶段,规则是可编程的,即自动化,而规则就是可学习的叫做智能。
AIOps定义:AIOps是指基于现有的运营数据(接入关系、监控报警、日志),利用数据分析和机器学习方法,提高运营决策能力,解决自动化运维无法解决的问题,进一步提高运营效率。AIOps的价值不仅在于提供智能化的运营决策,还在于在执行过程中对现有基础结构、应用关系、监控报警、日志数据等进行整理,实现真正的精细化运营。诚然,AI算法的限制、场景的多样性、数据的复杂性,决定了AIOps是一种人力密集性,这也决定了AIOps无法解决所有问题,需要人机协作和知识图谱来发挥AIOps的最佳价值。
数字化操作:信息化是将人工处理过程变为在线处理,数字化是将物理对象抽象成数字对象,通过大数据分析和机器学习算法挖掘数据的价值。海量数据主要通过对海量数据的分析,挖掘数据的价值,会用到一些机器学习算法,机器学习主要强调决策的自动化,依赖的基础也是数据,可以说,大数据分析的基础,AI就是目标状态。AIOps是运营数字化的直接体现。
AIOps场景:第一,质量方向,主要是异常处理,包括异常预测,异常检测,根因分析,故障自愈等。效率导向:主要包括批量预测、产能预测、成交量预测、成交量预测。第三,成本导向,包括资源优化、性能优化等。
算法遵从:
在这个阶段,由于计算力、算法、数据的共同改进、算力具有普遍性,场景决定数据,数据决定算法,数据决定算法。通常情况下,不同的场景数据是不一样的,即使同一场景的不同环境也有不同的数据,这决定了数据的适配性和算法的多样性。
AI算法:机器学习算法,按标注可分为监督、非监督、半监督、强化;根据用途可分为分类、聚类、回归、降维;根据方法可分为统计学、传统机器学习、深度学习等。在这些领域中,统计(例如,正态分布,均衡分布)要求数据必须符合一定的分布情况,用于异常探测领域,包括运营领域的错误处理、金融领域的反欺诈以及工业领域的残次品检测。常规机器学习,尽管对数据要求不高,但是对场景有很强的依赖性,即使是同一场景的不同环境,也需要不同的模型,在数据分析领域用的比较多。深度学习(如CNN,RNN)对于数据的要求很高,因为它需要更多的数据来训练深度神经网络,神经网络深度抽象表达能力较好,也决定了场景适应能力较强,主要应用于图像技术、语音技术、自然语言处理三大领域。
AIOps算法:做异常处理的时候,主要是概率分布和聚类,由于GT较少,分类较少。进行预测时,可采用多维线性回归模型,线性回归简单,但鲁棒性较差;也可采用一种基于深度学习的非线性模型,一种对数据要求较高,另一种是需要监督学习的,也可能是传统的贝叶斯模型,但是预测一般。
方案为王:研究一般问题,寻找一个更优的算法,工业部门除了要解决一般问题外,还要解决更多的个性化问题。对于算法,产品,解决方案,应用场景,生成价值,算法只是一个开始,研究新的算法,解决一般问题,尽管很重要,利用现有的算法,解决个性化问题,给出完整的解决方案,才是关键。
非零基构建:AIOps是建立在已有基础结构上的智能大脑,它依赖于现有的眼睛(应用存取关系、监视报警、日志)和手(云和自动化工具)。眼睛数据主要是应用访问关系,企业基础结构成熟,已积累应用访问关系,尚未成熟的企业,需要借助AIOps对数据进行整理;其主要内容包括设备监测数据、网络监测数据、系统监测数据、平台监测数据、应用监测数据、业务指标监测数据等是有组织的时序数据;各系统具有其自身的非结构化日志数据,不利于进行统一分析。其操作主要是在外部系统进行,可通过云平台(IAAS和PAAS)来实现,AIOps是在现有数据的基础上,进行分析、推理、决策,然后利用已有的手工操作。
监督管控
规制需求的“稳定器”是一把双刃剑,一方面保证了企业的安全稳定运行,另一方面又阻碍了技术创新。作为金融业的一个例子,强调严格控制,严格遵守ITIL的流程标准(发布管理、配置管理、变更管理、问题管理),追求一个稳定的状态。但是,不管是云计算,还是DevOps,还是AIOps,技术革新正在寻求敏捷的状态,常常对法规的需求提出了挑战。任何违反管理规定的行为,在监管面前都是一票否决。在现有的管理框架下,我们可以寻求折中办法,比如,在严格遵守ITIL严格控制流程的同时,将所有人工过程优化成自动化的过程。