ai智能运维总结

sdn控制器可以真正帮助运维工程师感知网络,基于telemetry技术实时传输,按业务所需的数据采集点和基于硬件的精确时刻下的数据采集,真实呈现网络状态,从用户体验,应用真实的运行状态感知网络,对网络进行多维度的运维。

sdn控制器数据处理流程:订阅数据(syslog获取设备日志,snmp设备数据,telemetry性能数据);采集(sdn订阅数据后,有采集服务完成数据采集,用telemetry秒级采集);缓存/分发(海量数据上传至sdn后,经过高吞吐消息缓存机制,分发到对应的ai服务进行分析);ai运算(sdn控制器根据采集的原始数据多维度分析处理,结合ai机器学习算法来进行业务问题分析);存储/显示(数据分析完后,保存到快速分布式数据存储系统中,并完成功能展示。)

智能运维解决方案支持有线无线网络故障识别和根因分析,所以必须从有线无线设备获取相关kpi数据,通过telemetry上报刚sdn控制器,sdn控制器将这些大数据进行归类,用ai算法呈现整个网络质量和故障识别。再一个是根据设备提供的数据,建立可视化用户体验质量评估体系,基于接入体验,漫游体验,吞吐体验,网络可用性四大类指标的质量评估体系,直观的呈现全网质量。
无线设备主要采集:ap的cpu,内存利用率,在线用户数,射频信道,干扰,流量,用户接受信号强度,丢包率,时延抖动,dhcp,认证。
有线设备主要采集:cpu,内存利用率,接口收发包次数,广播包数,丢包数。交换机上的光链路的光功率,电压,温度。
sdn控制器基于协议回放,实现用户接入问题的故障定位,以图形化方式展现用户接入每一个过程,协议回放实现用户接入三个阶段(关联,认证,dhcp)全流程可视,统计各个协议交互阶段的结果和耗时,实现问题的精准定位。运维人员接到用户反馈认证失败信息后,根据用户mac信息查找回话记录,成功和失败的情况一目了然,根据失败记录点,查看失败详细记录。

运维总结四种问题:
连接类的问题:关联失败,认证超时,认证失败认证慢,dhcp失败,dhcp慢。
空口性能问题:弱信号覆盖,信道干扰,空口拥塞,非5g优先。
漫游类:乒乓漫游,漫游异常
设备类:设备离线,cpu和内存暂用高,供电故障。

ai运维用到四种以下算法:
高斯过程回归算法:利用历史数据来计算和评估下一个调优周期内的ap负载预测值。
神经网络算法:利用历史数据来计算和评估下一个调优周期内的ap负载预测值。
聚类算法:利用大数据计算和完善网络设备拓扑分组信息,使得完了拓扑更加精准。
随机森林算法:通过对历史数据分析来识别边缘ap。

有线无线通过telemetry采集网络设备的丢包,流量,状态,配置等信息,可以完成高性能,实时采集,通过ai算法对数据信息进行分析极呈现,结合emdi(增强型媒体传输质量指标,对音视频业务监控,质量感知,保证音视频业务用户体验)emdi协议对视频每一帧进行监控,底层用udp协议。。
telemetry通过push模式实时高速的向采集器推送网络设备的性能数据指标,提高网络设备和网络利用率。采集精度可以达到亚秒级和毫秒极。sdn控制器中的telemetry(tcp协议)通过yang语言采集原始数据,使用protobuf编码格式通过加密通道将原始数据通过grpc谷歌远程调用协议送给sdn控制器,从而实现:原始数据采集,数据模型,编码类型,传输协议的融合。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
人工智能+智能运维平台建设综合解决方案 大数据 云平台 ——用人工智能点亮您的IT数据 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第1页。 1.从人工到人工智能 2.用人工智能点亮您的IT数据 3.迈出AIOps的第一步 目 录 Contents 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第2页。 Part 1 从人工到人工智能 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第3页。 当前运维和业务团队面临的困境 不是没有数据,而是数据太多 不是不想分析,而是无从下手 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第4页。 人少、事多、责任大 运维人员 IT设备和数据 过去:运维十到几十台设备 IT运维现状 运维人员 IT设备和数据 目前/未来:运维设备数量10倍-100倍增长 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第5页。 IT运维现状 基础架构:云化 应用: 微服务化 双态数据中心:传统架构+互联网架构 全新架构-系统复杂 运维对象:网络、主机、OS、存储、中间件、各类业务应用 数据多样化:日志、指标、告警、时间 … 运维对象、数据激增 依赖工程师技能经验 跨部门运维,责任界定困难 业务的支撑对排障时效性要求更高 排障困难-排障周期长 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第6页。 IT 运维面临的挑战 无法统一管理,快速查询 无法满足企业合规需求 查询难 分析难 对比难 人员利用率低 故障根源定位难 成本高,效率低 业务投诉多,系统风险高 数据管理 故障定位 数据分析 运维成本 依赖专家 手动运维 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第7页。 从人工到人工智能 挖掘海量数据的业务价值 统一大数据分布式处理技术 智能算法与机器学习 业务系统将要发生什么? 主动响应的预防预测性管理 降低系统低效对业务的影响 多种分散独立监控工具 专业化专家型人才 业务系统已经发生了什么? 被动响应的故障恢复性管理 人工运维 AIOps 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第8页。 什么是AIOps AIOps,即基于人工智能的IT运维(Artificial Intelligence for IT Operations) ,是由Gartner定义的IT运维管理新类别。 AIOps将服务管理、性能监测、自动化结合在一起,以实现持续洞察和改进的目标,并由大数据和机器学习技术进行支撑。 机器学习 大数据 平台 AIOps 商业价值 监测 (观察) 服务管理 (交互) 自动化 (行动) 持 续 察 洞 持 续 洞 察 持 续 洞 察 From Gartner's Report 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第9页。 AIOps的四个核心能力 AIOps 对海量数据进行存储 通过智能算法在数据提取时和存储后进行分析 从不同的数据源中获取数据 对海量数据进行高效访问 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第10页。 AIOps的技术栈 可视化 机器学习 算法 分析 计算 大数据 数据 事件 日志 监控 工单 任务 全量,海量,多样性,复杂性IT数据 集中统一管理,历史数据存储,实时数据存储 数据建模,模式识别,趋势识别,故障隔离 智能化选择,异常检测,异常定位,根因分析 算法自我修改演进,新算法创建 多维度,个性化,角色化,场景化展示 数据清洗,去重,过滤,关联,生成新数据 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第11页。 AIOps的核心价值 故障发现 故障规避 故障止损 故障修复 异常检测 异常定位 根因分析 异常预测 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第12页。 AIOps将在5-10年内成为ITOM的主流技术 From Gartner's Report 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第13页。 Part 2 用人工智能点亮您的IT数据 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第14页。 OneAPM智能运维平台解决方案 服务器数据 存储数据 网络数据 应用数据 用户体验数据 流量数据 日志数据 交易数据 任意IT数据 OneAPM AIOps 大数据实时多维分析 机器学习 大规模事务处理 海量数据实时接入 服务分析 深度挖掘 场景可视化 多维指标告警 数据建模 人工智能+智能运维平台建设综合解决方案全文共48页,当前为第15页。 OneAPM智能运维平台的五个能力层次 发现 接入 存储 整合 梳理 关联 智能 分析 多维 展示 从哪里来 到哪里去 IT数据 人工智能+智能运

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

项目工程师余工

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值