智能运维_计算机_钱兵(2022.05.12)

计算机-智能运维-大数据/AI技术

报告正文及笔记整理

P1 提纲

在这里插入图片描述

P2 什么是运维

什么是运维
总体还是围绕这三个目标

*P3 传统运维为什么往智能运维演进

在这里插入图片描述
互联网的红利期已经过去。运维工作也进行这么多年,日常运维工作的90%+还是可以用传统的运维方法覆盖。但为什么还是要智能运维?

  • 业务需求侧,确实可以推进,但是可以通过①增加人、②增加工具来实现运维,比如人做报表,用SQL语句,虽然复杂但是可以实现。
  • 运维的真正发展,实际上是右边的牵引力拉动这朝向运维发展——==政策、战略、技术。==①政策;②战略,市场的趋势,保证不落后,提质增效将本;③技术趋势。外部的牵引力牵动朝向智能运维的发展。

P4 政策:第三代人工智能到来

政策
人工智能的发展,朝向认知智能。
上下文语意。

P5 政策和技术:数字化转型深入到知识化转型

在这里插入图片描述
数字换转型:大多数做自动化实现——企业做的专家系统,平台、SAAS等。
智能的发展,驱使从数字化转型朝向知识化转型的发展。

P6 技术:人工智能两大核心技术迅猛发展

在这里插入图片描述
AI迅速发展的两大核心技术是深度学习和知识图谱。
国内发布的“大模型”。
我们人可以理解百科知识,但是机器看到的是问题,不能用于指导实践。

P7 运维发展阶段

在这里插入图片描述
2015还是保守了,现在也是靠专家规则,它是有用的,可以维持日常工作开展。
一项AI技术从预研到落地,需要有钱、有人,还要有时间。

P8 传统运维工作模式

在这里插入图片描述
出现问题——排查解决;
中间所采用的方法是经典方法——>不记录;采用的是新型方法——>详细记录,作为学习案例。

P9 智能运维工作模式

在这里插入图片描述
中间过程变多了,从问题发生到解决,都有专家、算法人员的参与。
智能推荐——由算法基于历史数据等,给出建议,相对于单个专家而言,更具有参考性。

P10 智能运维的场景

在这里插入图片描述
事件预警:短期、中期、长期。短期——针对特定KPI指标进行预测;中期——按天、周;长期——做规划、建议。
效能优化——资源调度,涉及到最优化、动态优化;统计学、数学建模、运筹学。

*P11 智能运维的场景

在这里插入图片描述
现在已经在做的:根因诊断、异常发现、效能优化;
这三个部分的算法等成熟后,给 故障自愈 策略,实现自愈化;技术难度不高,更多的是敢不敢做,测试环境可行,但生产环境很麻烦。

故障自愈——保证用户的正常实用,比如正在打游戏
技术上可以实现,主要是业务的障碍。

预警、预测
地震的预警——事情发生、快速传播消息,告诉后果,立刻响应。
预测——事情没发生,告诉运维人员在未来什么时候发生。

注意这个坐标轴:基于预测、基于规则。这是划分机械设备运维的参考思路。

P12 智能运维所需要的技术

在这里插入图片描述
系统开发和大数据:
开发运维技术;很成熟的技术,也有更新但是更新速度很慢。
数据工程师、运维工程师、系统开发人员。

AI技术:数据科学家、算法工程师。
AI技术很多,要学习的内容是很多的。

这是两个领域的人才。

P13 AI技术图谱

AI技术图谱
互联网+ 行业
AI+ 行业

*P14 总结:三大热门技术、四类核心算法

在这里插入图片描述
大数据处理:技术基础
NLP:文本数据越来越多,建立知识绕不开自然语言处理
知识图谱:需要用到图数据库、图模型

运维核心基础算法:每个领域至少知道一个算法一个案例。
异常监测算法:
根因诊断算法:
趋势预测算法:
事物分类算法:

其他的,比如图像识别、视频监控、迁移学习、强化学习这些,可能不是必备的,可以入门之后慢慢学习。

P15 技术推动运维的研发路径

在这里插入图片描述
智能运维的推动——外部环境:领导、政策等

*P16 传统运维于智能运维模式对比

在这里插入图片描述
专业数据集
这个概念很有意思,以往讲专业知识用“公式+解释(机理模型)”表示;后续用“软件+配置化”表示;那么在智能化时代,用“模型+数据集(数据模型)”来表征。

P17 技术推动运维中的顾虑

在这里插入图片描述

P18 应用案例

在这里插入图片描述

P19 运维中算法思路

在这里插入图片描述

P20 算法演进过程

在这里插入图片描述传统规则就是做单指标,当然有些数理统计基础好的专家,也可能会做多指标。

时空序列预测模型;

P21 专家打标的问题

在这里插入图片描述

P22 异常监测的场景复杂

在这里插入图片描述
存在的三个问题:
无监督学习 算法问题
专业打标的不确定性
场景复杂

异常周期:

P23 无监督和有监督算法在异常监测上的问题

在这里插入图片描述
KNN、SVM、孤立森林、PCA
有监督——准确程度无法把握;黄色曲线,专业认为有问题,算法没判断出来
无监督——整体准确的不高。

P24-25 两种解决方案

在这里插入图片描述
在这里插入图片描述

P26-27-28 半监督和深度学习依然存在的问题

在这里插入图片描述
在这里插入图片描述

可解释性的AI模型来做运维算法。

在这里插入图片描述
通过特征提取的新的维度,这些派生的指标,具体是什么含义并不知道,所以导致可解释性很难。
(1) 异常点为什么分布在聚类之外?
(2) 专家定义指标是有方向性的,这个指标越大越好还是越小越好?比如流量很大,在数据上属于异常,但是在业务上并非属于异常。
增加模型可解释性和指标的方向性

P29 改进思路

在这里插入图片描述
YOPSIS 综合评价方法的一种。

P30 改进后的效果

在这里插入图片描述

P31 运维知识图谱构建思路*(案例2)*

在这里插入图片描述

P32 图谱本体构建

在这里插入图片描述
5大实体、7大关系。

P33-34 实体抽取+对齐

在这里插入图片描述
在这里插入图片描述

P35 语义相似性匹配

在这里插入图片描述

P36 知识图谱建立

在这里插入图片描述
静态应用——查询响应
动态应用——在异常监测过程中,支持推理等

P37 知识图谱应用

在这里插入图片描述
基于知识图谱的预测算法研究

类似新冠病毒、传染病模型的预测,这样的故障预测需要带着时间标签的。
小区A出现故障,其对小区B的影响,如何分析,这样就需要带有时间标签。


问答

Q1:智能运维革新会取代传统运维人员吗?
A1:节省工作时间,发挥其他价值,明确智能运维的优先级;
AI模型的优化,需要运维人员的经验,他们的经验视角非常重要。
二者都发展为复合型人才。

Q2:下一个风口是什么?是AI吗?
A2:我觉得AI更靠谱一些;AI是互联网的一个综合应用。

Q3:AI和运维关系?
A3:运维只是AI应用的一个场景。系统的内容提升自动化,AI提升智能化水平。AI+好多领域可以。

Q4:传统运维到智能运维的转变?
A4:看领导规划,领导没战略,转型也很难。

Q5:专家系统Or智能运维?
专家系统是基于规则,A+B发生——》C发生;C指标>X——》故障。
智能运维:指标是动态的,基于数据而来。

问:学习AI建议?
答:嵌入到实际场景下进行学习,提高更高效率。需要有实际任务、或者自己找到的任务,和AI、智能运维相关的任务。在参加过程中学习新的知识。

问:什么是智能运维?和自动化运维之间是什么关系?
钱兵:简单来说,智能运维就是在传统IT运维的基础上,通过AI和大数据技术实现运维工作的智能化,减少技术人员在运维过程中的参与度。自动化运维是通过软件系统、专家规则等方法解决运维的自动化问题,提高运维效率;而智能运维是在自动化运维工具基础上,引入了AI技术。

问:那么,智能运维需要哪些核心技术?目前在哪些领域有比较成功的落地案例?
钱兵:其实,目前智能运维处于发展中前期,主要使用的是已经经过反复验证的成熟技术。如近年来迅速发展并成熟起来的大数据和AI技术,在智能运维领域都得到了广泛的应用。
具体用到的核心技术主要有:大数据采集、数据预处理技术,统计学、机器学习等技术,这些技术在智能运维领域都有很好的成功案例。
另外,智能运维领域非常重视知识的提取、应用、更新,这就用到了时下很受关注的自然语言处理和知识图谱技术,与之相关的文本数据标注工具、文本相似性算法等一系列AI技术,也得到了非常普遍的应用。
应用场景方面,在我们电信网络运营领域中,流量趋势预测是一个很重要的应用场景。我在《智能运维之道——基于AI技术的应用实践》一书中把其细分为短期、中期和长期的趋势预测。短期流量预测的时间一般是秒级、分钟级,可用于故障预警;中期流量预测一般是小时级、天级别,可应用于异常检测;而长期流量预测主要应用于远期的资源规划,时间颗粒度一般都是季度、年为单位。这个流量趋势预测就用到了ARIMA、向量自回归、LSTM、Logistic、SVM等分类和时序预测算法。

问:智能运维在当前发展是否称得上顺利?还存在什么问题?
钱兵:这个问题非常好,只有长期在这个领域的人对这个问题才有深刻体会。大家对智能运维的看法基本是:前途是光明的,但道路是曲折的。
由于当前正处在IT运维向智能运维转型的环节,因此宏观上,企业的研发需要钱、人和时间的投入,这就让很多小企业望而却步,只有大企业才有这些条件优先实现智能运维转型。而大企业并不会长期无条件的投入这三类资源,也会对产出有所期望,这就导致微观上也存在一些问题。
微观上,企业内有三类人在推动智能运维的发展:管理层、运维工程师、数据或算法工程师。由于他们三者所处的位置和职责不同,他们在智能运维研发过程中的收获和体会存在很大差异,这就导致他们对此的态度是不完全一样的。智能运维发展的挑战在于:短期内一些场景看不到AI技术对运维的实际帮助,并且运维人员要在日常运维中,额外为智能运维研发付出时间和人力。
比如在智能问答的场景中,每个模型训练和知识提取,都需要运维人员标注大量数据,标注完的数据需要反复清洗,清洗后的数据还需要再让运维人员二次审核确认,最后训练出来的模型准确率却不尽如人意,需要反复优化,这个过程中别说有些管理者等不及,很多一线研发人员都可能失去信心。
因此,总体来看,当前智能运维是在曲折中前进,逐步从一个个单场景实现智能运维,最终实现全域智能运维。

问:一线运维人员和其他人员对智能运维的态度不一样,那他们有担心过自己会被智能运维替代或者淘汰吗?
钱兵:这个问题对当前的运维人员来说,完全不用担心,因为企业智能运维处于探索期,还不完全成熟。在智能运维研发和实现过程中,现在的运维人员会参与研发过程中,他们在技能上会逐渐转型为复合型人才,他们是跟随当前的技术往前在发展的人,不用担心被淘汰。
如果说对未来从事运维从业人员的影响,可能是智能运维对运维人员的需求量将逐渐减少,运维相关专业方向的年轻人面临的就业压力会更大,但他们是年轻人,可以在学校里就做好转型准备,有更多的转型机会。

问:智能运维和数字化转型之间是什么关系?
钱兵:智能运维是一种全新的数字化运维能力,也将是企业数字化转型的必备能力。当前数字化转型走在前边的企业,每天都有很多系统故障告警事件需要处理,而这类事件之间是有关联的,这就可以通过智能运维中的故障传播路径图建立图谱进行分析,找出具有因果关联的两个或多个故障,并做出相关预警机制,从而帮助企业有效应对系统故障。

问:智能运维和东数西算之间是什么关系?
钱兵:随着数字化转型、5G甚至6G技术的快速发展,未来的数据资源和算力资源一定是基于分布式架构部署的。“东数西算”是国家从宏观层面对数据和算力资源的分布式战略安排,与未来技术发展趋势相匹配。各类系统产生的大量数据、AI模型所需要的算力,离不开智能运维的规划与调度,智能运维对数据和算力起到的优化配置作用,刚好与“东数西算”这个战略的目标相契合。

另外“东数西算”战略也会带来一些新的智能运维场景,比如国家对8个算力枢纽内规划设立的10个数据中心集群,设定PUE标准,这是智能运维中典型的能效优化场景。事实上,只要跟数字化沾边的,大到战略规划,小到一个具体的项目实施,甚至是一个信息系统的管理,都离不开运维和运维工程师。

图片

图片
图片
以上是钱兵老师对智能运维的概念、运维工作对数字化转型的重要意义的解读。

是否还想深入了解更多精彩内容?可以观看下方的钱兵老师专题讲座直播视频。

如果大家想获取更多关于智能运维的知识,还可以阅览钱兵团队编著的《智能运维之道——AI技术的应用实践》一书,这本书系统总结了智能运维的过程及方法,剖析12大智能运维的真实场景和案例,将对大家参与智能运维工作具有很好的启发意义和实用价值!


参考文献


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值