必示异常检测+定位,解决业务黄金指标异常处置难题

必示异常检测+定位,解决业务黄金指标异常处置难题

在大型数据中心日常工作中,对业务黄金指标的全面监控和细节问题处理是IT运维领域的经典问题,尤其是成功率、失败量这类指标,受业务运营、技术变更、第三方等影响较大,对其监控往往需要投入大量的时间和专家经验来完成告警规则和阈值的配置,不过也仅仅是在误报和漏报之间权衡取舍,很难取得理想效果。此外,业务指标的异常告警可能来自不同渠道、机房等维度,关联关系错综复杂,也给管理员进一步快速定位问题根因造成了困难。

随着数字化转型和智能化升级的不断演进,智能运维方案的引入可以很好地解决以上痛点。下面分享一个某大型商业银行通过必示智能运维实现黄金指标短时异常发现与故障根因定位案例。

某日,该银行业务系统交易失败量突然升至近3000笔,指标异常持续3分钟,其间成功率跌至90%以下并持续1分钟,随后系统恢复正常。由于传统监控告警规则设置为成功率连续3个异常点(低于90%)才会告警,本次异常传统监控未给出告警。

在这里插入图片描述

必示业务指标异常检测通过对历史数据的学习,准确过滤掉正常指标波动,实时检测到此指标异常并发出告警,同时触发业务明细多维定位分析,用时1分钟即从近十个维度、及对应的共上万维度取值组合中定位到本次告警指标的具体异常维度,给出报告:“某源系统、对应的机器IP、错误信息、返回码、交易类型”等维度信息,帮助管理员迅速判断问题根源。

在这里插入图片描述

很快,管理员即确认,本次异常是X系统下A机器执行的一项批处理任务发起大量请求时,由于代码与系统配置问题,不断重复验证密码,导致后续批处理请求全部失败。根据此分析结果,管理员锁定相应的故障代码并安排修复,及时清除了系统隐患。

类似的短时指标波动异常问题并不少见,但很难通过传统监控来发现(如,此次案例发生过程中,传统监控工具从始至终未发出异常告警)。在传统监控工具配置固定阈值及告警规则过程中,过于严格的阈值设置会导致大量误报,而相对宽松的阈值设置又会产生漏报。因此,针对这种藏匿于指标短时波动中的异常情况,传统监控往往有心无力,难以做到全方位有效监控。进一步来看,当系统异常被发现后,传统情况下需要收集多个维度信息并投入大量人力进行逐一分析,难以快速聚焦到异常根因。因此对于这类情况,一线管理员虽然也知其重要性,但为了避免大量毛刺干扰正常视线和注意力,通常还是会选择将其压制掉,这些问题日后或将成为系统隐患,对系统整体的稳定性造成不确定影响。

在这里插入图片描述

就此次案例而言,首先必示业务指标异常检测基于机器学习算法支撑,可对日常的大量误报进行收缩,给到管理员实时、准确、真实有价值的告警;同时,告警可自动触发业务明细多维定位,通过对海量维度信息组合的智能关联分析,快速(分钟级)给出定位结果。管理员根据智能分析结果即可迅速锁定对应系统和对应机器,并根据错误信息、返回码、交易类型等信息,快速下探挖掘到代码层错误。

必示科技的业务指标异常检测产品集成了多种独创的异常检测算法,采用基于机器学习算法的动态阈值,无需人工调参,避免了由于规则局限导致的误报警和漏报警,减少冗余告警,极大地提高了检测和告警准确度。

**必示业务明细多维定位产品创新性的提出了评判多维指标体系中元素集合是异常根因可能性的评分方法,解决了元素间存在复杂关系导致的难以衡量任意一个元素集合根因程度的问题;同时采用“先聚类,再搜索”策略及多种剪枝方法,**在不影响结果的前提下降低复杂度,解决了巨大空间的搜索问题。当异常出现时,可以在海量交易明细中迅速找到异常的根因维度组合,辅助管理员快速聚焦异常维度,在业务层面进行更精细的故障定位。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值