Apsara Stack 技术百科 |「云+应用」一体化混合云全景智能化观测平台

在企业数字化转型的浪潮中,核心业务的上云和迁云无疑是转型过程的重中之重。随着企业云上业务的复杂化,云上云下技术栈的多样化,以及云上运维组织规模的扩大化,云上业务的稳定性和连续性面临着更大挑战的同时,企业对于数字安全性及等保合规层面的需求也日益强烈,混合云成为诸多大型政府企业客户上云迁云的首选方案。为了保障混合云场景下客户云上业务的稳定性,阿里混合云应用观测平台团队旗下的Sunfire全景智能化观测平台(以下简称Sunfire平台)产品,不断转型升级、推陈出新,走出了一条跌宕起伏的道路。在这条道路上,我们究竟经历了哪些挑战和困难,我们又如何思考和应对?在历经挑战之后,我们又取得了哪些产品技术成果和客户价值?要回答这些问题,我们要先从观测本身谈起。

乱花渐欲迷人眼:我们需要什么样的观测

观测是什么

如果你是一个互联网技术人员,提到观测,你的脑海里也许马上会闪过许多优秀的开源观测工具,从Nagios,Cacti到Zabbix,以及大名鼎鼎的Prometheus. 但观测究竟是什么,怎样的观测才是好的观测?我们或许需要认真思考一番。

散落在边塞沙漠戈壁高地上的烽火台,是我们的祖先为了掌握隐藏在塞外的敌人的行踪而建设的观测体系。从历史回到现实互联网技术观测领域,从本质上看,观测是对于现实世界实体或对象的测量和检测,测量的结果通过观测数据的方式(可视化地)传递和展示出来,而检测的结果则会以报警(或消息)的形式通告观测的关注者。观测工作作为运维工作的重要组成部分,需要同时关注质量、成本、效率,以期在实践中起到符合预期的效果。伴随这三大挑战的磨砺业界的各种观测系统不断演进,各有千秋。针对混合云客户侧复杂异构的运维环境,从2015年开始,Sunfire平台就在集团100多个事业部横跨电商、金融、物流、文娱、云计算等多各业态下的日常观测和双11大促的磨练之下不断前行,持续完善和刷新着我们对观测业务和技术的理解。从2019年开始,Sunfire平台开始了商业化的进程,面向混合云客户提供业务、应用、平台全景智能化能力,也积累了诸多客户侧的成功案例。在多种多样的观测工具中,客户之所以选择Sunfire平台,一方向是因为Sunfire平台具备针对全景观测对象进行指标、链路、日志全栈的观测能力,一方面也是因为Sunfire平台突出体现了“通过业务观测能力来发现故障,通过全景观测能力定界故障,通过事件处理能力来辅助恢复故障”的产品思路。而这种理念,特别是以业务观测为故障发现入口的理念,是来源于历年来Sunfire平台支持阿里巴巴集团观测的产品技术积累当中,并在每年的双11大促和日常观测运营中不断经受洗礼和检验。

淘尽黄沙始见金:Sunfire平台支持阿里巴巴集团的观测实践

在每年双11零点来临之前的夜晚,上万阿里工程师聚集在阿里巴巴的各个园区。而阿里巴巴总部杭州西溪园区的核心作战室里,更是聚集着负责阿里核心技术链路的上百位工程师。他们屏息凝神,注视着核心作战大屏和自己个人电脑上的观测大盘。作战大屏上,双11核心的实时交易数字正在秒级刷新,像不断跳动的脉搏一样,展示着阿里巴巴经济体的体量、规模和活力。在作战大屏和大家电脑大盘背后的就是Sunfire平台,再过若干分钟,Sunfire平台会和阿里经济体的核心交易链路一起,经受数百倍于日常的流量冲击。从双11基于观测的全局技术指挥延展到日常的故障应急,为了应对海量业务流量、数万技术人员给技术风险带来的挑战,Sunfire平台在观测体系和观测技术架构设计上,走出了一条和业界不同的道路。

从业务观测出发:双11战火洗礼下的观测道路选择

作为一个互联网行业的技术人员,提到观测,我们往往会想起各种针对系统资源和水位的观测,以及对于应用程序性能的观测等,而在Sunfire平台中,上面这些内容却并非平台功能的主角。Sunfire平台是一个以业务观测为主、以应用和资源观测为辅的观测平台。这种观测思路和实践和业界通用做法大相径庭。Sunfire平台之所以走出一条和业界不同的道路,追本溯源,也许还是和阿里特有的双11技术场景和阿里集团技术风险的机制息息相关。

在探讨观测的思路之前,我们首先需要回顾另外一项阿里技术体系给互联网技术界所做出的创新和贡献:全链路压测。在双11的最初几年,阿里核心交易链路面临着巨大流量带来的未知风险。通过微观层面的针对每一个应用、中间件、数据库模块的自检和盘点已经无法完整地保障复杂系统的稳定性,因为在超大流量的冲击之下,究竟哪一个系统会先‘顶不住’已经无法预先通过微观层面的技术分析来识别。因此,阿里技术人创造出了全链路压测体系,通过构造超大规模的流量来对系统进行全局压测,再根据业务指标的影响来决定压测的效果。在业务量和成功率达到极限之后,再通过系统观测发现各个组件的问题。这个通过业务指标判断系统整体极限和瓶颈的方案,需要对业务指标有一套高效的观测机制。同时,这种从宏观业务出发而不是从微观

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值