基于IoT全链路实时质量 - 魔洛哥

本文介绍了物联网(IoT)环境下智能终端交互系统面临的问题,如终端问题难感知、长链路问题难定位。通过引入“狄仁杰”SDK和“魔洛哥”平台,实现全链路日志串联、实时质量监控和异常预警,提升故障感知和定位效率。魔洛哥提供通用实时质量视图,助力不同IoT产品实时质量建设,目前仍在持续优化中。
摘要由CSDN通过智能技术生成

1 背景

伴随着物联网(IoT)的快速发展,软硬件交互场景越来越普及,在自用和商用的空间场域中,我们智慧园区、未来酒店的智能化场景也得到了极大的丰富,打造出多款智能有科技感的产品,如人脸门禁、云前台、入住自助机、无线AP、云打印等等。空间域中围绕“人”、“设备”、“空间”打造的“智能化场景”有着特殊的物理空间上的分散和连接,硬件终端的异地分散部署、终端与云端(或边缘端)的连接通信,服务端-云端-硬件终端的远程指令控制等。物理空间上的分散和连接,增加了监控运维的难度,时常出现用户的各种问题反馈:

  • 设备离线
  • 固件升级后服务不可用
  • 终端应用升级后服务不可用
  • 卡死、白屏、样式错乱
  • 业务功能异常、服务异常
  • 上游依赖应用系统服务异常

基于阿里巴巴最佳实践打造的智慧园区和未来酒店产品,已逐步走向商业化输出,问题也从内部用户反馈扩大到外部客户反馈,如果问题总是通过客户反馈才能被动感知到,必然会导致客户对我们的产品逐渐失去信心。如何才能变被动为主动,使得运维、开发和测试同学具备感知线上问题、诊断定位根因、快速应急止血的能力,是一件很必要的事情。

2 核心问题&挑战

基于IoT打造的交互场景,从部署架构看,除了长链路的特性外,还有大规模分散部署的硬件终端,以及跑在终端上的软件系统。通常来说,智能终端软硬件交互系统是交付和长期运维的重难点,一方面存在硬件的不同厂商、不同型号、物理性损耗、ROM升级、摩尔定律等引发的五花八门的偶现问题,另一方面存在软件升级、依赖不可用等引发的重大问题。

我们从日常具体问题中抽象提炼出2大核心问题:

  • 终端问题难感知:终端日志缺失、偶发难发现、质量度量视图缺失
  • 长链路问题难定位:质量分析模型不准确、端到端的日志断连

全链路日志和质量度量视图,是解决问题的关键所在。但要在智能终端软硬件交互系统中建设全链路日志和通用质量度量视图有一定的挑战,具体挑战如下:

3 解决方案

基于IoT的智能终端交互系统,设备终端一般由交付同学来运维和升级,终端软件由客户端开发同学运维和升级,服务端由后端开发运维和升级。系统问题可能发生在硬件终端上、可能发生在终端应用软件上、也可能发生在服务端依赖上。多职能角色的协同,长链路的调用,导致问题“发现-定位-止血”的耗时远高于纯软件系统。

结合日常问题的分析经验,我们期待的问题发现定位方式是:首先能够实现终端问题的快速准确感知,其次基于业务场景指标呈现质量概览,并通过不同维度的质量分析模型进行下钻,最终通过全链路的调用日志明细确定根因。这样从业务场景出发,发现异常问题,串联全链路,任何职能角色都可以方便易懂的感知,关注和分析系统质量情况。同时我们的解决方案

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值