亚马逊云科技赋能观测云全球化布局

b369c0220e78c1c78c2fed9332d30605.jpeg

关键字: [出海日城市巡展, 观测云 (Observability Cloud), 可观测性能力, 统一数据采集, 多模存储引擎, 智能监控探知, Ai模型可观测]

本文字数: 2300, 阅读完需: 12 分钟

导读

在这场演讲中,观测云产品架构师李威介绍了观测云的可观测性能力、优势以及在AI领域的探索与实践。他阐述了观测云如何通过统一的数据采集器和多模存储引擎观测DB,实现全面的可观测性,支持海量数据分析,并提供统一查询语言。观测云致力于构建新一代一体化监控观测平台,能够采集基础设施指标、日志、应用性能监测数据等,支持云原生微服务架构,覆盖主流技术栈。在AI领域,观测云正在探索AI模型训练过程的可观测性,计划推出LM模型查看器和AI智能培训报告,为AI开发者提供模型优化和分析支持。观测云拥有全球节点布局,可为AI领域的出海提供助力。

演讲精华

以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。

在当今时代,随着企业数字化转型的不断推进,可观测性已经成为确保系统稳定运行、提高运维效率、优化用户体验的关键因素。然而,许多企业在实现可观测性的过程中面临着诸多挑战。传统做法是采购开源的第三方监控软件,如Prometheus、Grafana等,但这些软件都是分散式的、分布式的,缺乏有效的数据整合机制,导致信息孤岛的形成。管理人员需要在多个平台之间不断切换,大大降低了工作效率。由于各个软件的采集能力和数据格式标准不一致,企业对系统的全面可观测能力表现得很薄弱。每个分散的监控软件都需要独立配置各种资源,并定期维护升级,给企业带来额外的成本负担。在大规模复杂环境下,分散式架构可能无法满足当前的横向扩展需求。更为严峻的是,当系统发生故障时,分散式监控会产生影响的告警,但这些告警会分散到不同角色的成员中,信息不够集中,难以在短时间内将问题排查清楚,错过了故障处理的最佳时机,导致业务连续性较差,用户体验大打折扣。

为了应对这些挑战,观测云致力于构建新一代一体化的监控观测平台。它通过一套采集器加平台的模式,能够满足企业所有监控需求,采集基础设施指标、日志、应用性能监测数据、用户访问监测、会话回放等各种数据。观测云提供了强大的Agent能力,拥有全域数据采集能力,通过统一的数据采集器,可以采集用户各种App、小程序、安卓、iOS或Web应用的数据,支持Java、Python等常见编程语言,覆盖MySQL、Redis等中间件,并能无缝衔接亚马逊云科技等云服务产品。

在云原生领域,观测云基于云原生微服务架构,完全覆盖了Kubernetes的数据采集能力,支持Linux、Windows和MacOS操作系统,同时支持x86和ARM架构。在技术栈方面,观测云支持400种以上技术栈集成,涵盖市面上主机、容器、中间件、云服务器等,同时支持主流编程语言和前后端工程,能够兼容第三方系统如Prometheus、Grafana、SkyWalking、OpenTelemetry等。

采集到的数据会直接接入观测云自研的观测DB,这是一款新一代多模存储引擎,主要特点是Schema-less,无需预先定义数据结构,就可以更好应对灵活可扩展的可观测数据类型,同时支持全面海量数据分析,拥有极高性能和极低成本。上层采用统一查询语言DQL查询引擎,能够查询所有类型数据,包括用户访问监测、应用性能监测、日志、主机、可用性监测如拨测任务、异常追踪、安全巡检、AI智能监控等,通过统一查询语言,可构建各种仪表板,目前支持25种以上图表组件,内置多种图表模板,可满足所有监控需求。

总的来说,观测云可为客户搭建统一融合监控系统,解决企业内各种分散监控体系的困扰,无缝兼容客户当前系统,也可替换部分系统,节省客户成本。在效率上可达100%提升,因为通过统一平台,所有数据都集中在平台上,模型训练出错,出错原因一目了然,能更好迭代模型。融合统一是大势所趋。观测云可以无缝衔接亚马逊云科技等云服务产品,包括亚马逊云科技云服务器、亚马逊云科技中间件等。

观测云提供端到端可观测性平台,其中的会话回放功能就是一个亮点。它会将用户所有信息录制下来,就像小视频一样,但不是视频,而是类似的模式。当用户访问网站,点击各种页面、操作按钮时,我们可看到这个页面调用了哪些后端API,包括模型输入输出、参数信息,同时还可关联日志信息、主机运行情况、网络状况等。如果开启了Profiler功能,就可知道模型内部训练过程中的堆栈信息,可修复对应代码,调整优化模型。通过观测云,可构建强大的用户感知平台,不管是Web、小程序、安卓或iOS,都可录制下来,了解用户真实情况,记录问题现场,运维人员无需再向客户了解当时网络状况等,可通过回放了解。同时,如果做分析工作,可通过界面记录用户点击、加载页面行为、操作按钮,有报错可一一展示。如果分析用户注册登录购买VIP的转换率,也可通过图表深入观察,为产品优化提供方向。

在AI智能方面,观测云也做了许多探讨和实践,包括对模型训练过程中突增情况、模型调用异常如延时较长影响用户体验等,都可通过自研算法体系监测出来,快速定位问题。

观测云主要有以下四大核心优势:

第一,通过统一数据采集器代理,可面向现代化云体系,完美兼容所有开源技术栈。

第二,通过多模存储引擎观测DB,能支持海量数据分析,具有极高性能,同时极低成本。在查询方面,观测云提供了统一的查询语言DQL,不管是什么样类型的数据,都可以通过一条语句查询出来,在可观测领域上,这种语言就是非常强大的。

第三,观测云提供了智能一体化的监控平台,可提供强大的可视化和关联分析能力,因为不同的数据如果结合起来,需要各种手段,观测云具备这种强大的分析能力。同时,智能监控探知可以探知潜在的问题和问题的原因。

第四,目前观测云已经支持了400种以上的技术栈,包括数据采集、观测模板建设、监控配置项,支持所有主流编程语言和前后端工程。

在AI领域,观测云与许多工程师进行了探讨,了解到他们迫切需要一款工具,能够协助了解模型在训练过程中出现的内部运行问题,让开发人员能够更好地提升模型的输入输出。观测云了解到,国外有一款很好的AI应用程序开发、监控和测试平台Whylogs,它将模型开发过程分为原型、测试和生产三个阶段。原型阶段主要进行第8点调试、基准测试、对比和改良;测试阶段会收集客户反馈,了解模型输入输出是否符合预期、模型打分情况等;生产阶段则关注监控,确保模型运行过程中不出现大问题,准确性和召回率较高,同时会不断进行A/B测试,让模型不断健壮成长,还可自动化操作,如将用户测试结果打包成测试集深入分析和评估模型表现。

观测云在本地运行了一个模型代码示例,通过案例注解将数据接入Whylogs平台,可在其提供的仪表板上查看对应的历史信息、每一步延时、API调用及其输入输出、创建时间、成功率、Token消耗情况等,并提供简单的监控功能,如查看当前Trace调用情况、Token消耗分布、模型调用分布等。

总的来说,AI Agent可观测性主要有以下八大应用价值:

第一,实时监控与分析。AI Agent可实时监控系统运行状态,通过分析大量的时序数据,能预测可能将要出现的问题,提前采取措施。

第二,智能告警与根因定位。可以利用AI收集相关数据进行智能分析,快速识别异常模式,提供准确的告警信息,并帮助定位问题的根本原因。

第三,自动化处理。AI Agent不仅能够识别,还能在某些情况下自动执行重复的工作,减少人工干预,提高系统的稳定性和可靠性。

第四,减轻运维负担。通过自动化和智能化监控,AI Agent可减轻系统运维人员工作负担,使他们能专注于战略性工作。

第五,提升客户体验。AI Agent能通过优化系统性能和可靠性,最终提升客户体验。

第六,降低运营成本。AI Agent能提前发现问题,为系统做预警,减轻故障带来的损失,实现降本增效。

第七,辅助决策。AI Agent提供的数据洞察和分析结果,可作为管理层做出科学精确决策的依据。

第八,推动AI发展。AI Agent作为人工智能重要方向,具备规划、记忆和工具使用的核心能力,有助于推动人工智能发展。

在探索AI的过程中,观测云与众多AI开发者沟通,了解到他们迫切需要这样的工具,但Whylogs作为国外产品,在国内无法使用。为此,观测云计划在今年7月上线LM模型查看器,可理解为类似于Whylogs的查看器功能;在8月和12月上线AI诊断智能培训报告,为人工智能增添光彩。

与此同时,观测云顺应全球化布局,在欧洲法兰克福、北美龙钢、新加坡都设有节点,可为AI领域出海提供更好支持。观测云产品网站为www.yunzhijuzhen.com,产品坚持每两周迭代一次升级,迭代速度较快,以顺应发展潮流。目前已有600多篇在线文档,可帮助客户快速将原有系统如SkyWalking、Prometheus、Grafana等接入观测云平台。每周还会输出可观测性最佳实践,发布在公众号上,供感兴趣者查阅。

总的来说,观测云为企业提供了一体化的监控观测解决方案,不仅能够全面采集各类数据,支持400多种技术栈,还在AI领域进行了积极探索,旨在为AI开发者提供工具支持,推动AI发展。通过实时监控、智能分析、自动化处理等能力,观测云可以极大提高运维效率,优化系统性能和可靠性,降低运营成本,提升客户体验,并为企业决策提供数据依据,是企业数字化转型的重要一环。

总结

在AI时代,可观测性扮演着关键角色。观测云致力于构建新一代一体化监控观测平台,通过统一的数据采集器和多模存储引擎,能够采集和分析各种数据源,支持400多种技术栈。它提供了强大的Agent能力、统一查询语言DQL、智能监控探知等,可实现全面可观测性。在AI领域,观测云正在探索AI模型训练过程的可观测性,如通过LunchBuddy平台监控模型运行状态、输入输出等,并计划推出LM诊断查看器和AI诊断培训报告。观测云具有四大核心优势:兼容现代化云体系、支持海量数据分析、提供统一查询语言、智能一体化监控平台。AI Agent可观测性可带来实时监控与分析、智能告警与根因定位、自动化处理、减轻运维负担、提升客户体验、降低运营成本、辅助决策、推动AI发展等八大应用价值。观测云正在全球化布局,为AI领域提供可靠的可观测性支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值