AIOps-一位研发工程师的学习笔记

从去年下半年接触DevOps到在公司内部落地,花了半年时间,公司相关人员实在体会到效率的提升。
我公司目前的流程是svn/gitlab + jenkins做ci和cd,分测试环境、准正式、正式环境。自动化测试等都没有做。
【人肉运维】上下班路上在java程序员上刷文章,AIOps关键词一再出现在我的视野,手里有120几台阿里云服务器,有问题都是人肉处理,虽然使用了saltstatck做了配置管理和程序管理,但是不够理想。特别是有问题比较难快速定位到问题。
今天学习了《企业级AIOps实施建议白皮书V0.6》,把学习笔记整理在下面。
AIOps就是智能运维(Artificial Intelligence for IT Operations),目标是基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低IT成本,并提高企业的产品竞争力。
AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。
类似于使用tensorflow使用CNN训练出图形验证码识别模型吗,然后就无敌了!!!
AIOps的能力等级:尝试应用、单点应用、串联应用、能力完备、终极AIOps
【学件】学件(Learnware)=模型+归约,也称AI运维组件,在类似API/公共库的基础上,保存了通过自学习/专家算法学习到的解决特定场景的智能规则。
AIOps能力框架?
【智能变更】DevOps通过串联变更的各个环节形成流水线提升了效率。智能变更的系统决策来源于运维人员的运维经验,这些经验通过机器学习、知识图谱等手段转化成系统可学习和实施的数据模型。
【智能问答】AIOps智能问答系统通过机器学习,自然语言处理等技术来学习运维人员的回复文本,构建标准问答知识库,从而在遇到类似问题的时候给出标准的,统一的回复。这样,不仅可以有效地节省运维人员的人力成本,还能够使得提问得到更加及时的回复。
【智能决策】AIOps 智能决策一方面可以将运维人员的决策过程数据化,构建决策支持知识库,从而实现经验积累;另一方面,由于系统掌握了从全局到细节的数据,再结合决策支持知识库,可以为更加准确的决策提供最有力的支撑。
质量保障:数据源/指标/文本异常检测、基于人工故障库/数据挖掘的故障诊断、故障预测、故障自愈。
成本管理: 成本优化、资源优化、容量规划、性能优化

关键技术:
1. 数据采集
2. 数据处理
3. 数据存储
4. 离线和在线计算

算法技术
1. 指标趋势预测
2. 指标聚类
3. 多指标联动关联挖掘
4. 指标与事件关联挖掘
5. 事件与事件关联挖掘
6. 故障传播关系挖掘

参考资料:企业级AIOps实施建议白皮书V0.6
http://www.gaowei.vip/lib-69714852.html

展开阅读全文

没有更多推荐了,返回首页