关键字: [亚马逊云科技中国峰会2024, Chaos Engineering, 系统韧性框架, 风险分析方法, 混沌工程验证, 异常检测优化, 错误根因分析]
本文字数: 1400, 阅读完需: 7 分钟
导读
在这场演讲中,演讲者介绍了亚马逊的韧性系统建设框架,旨在持续提升系统韧性。他阐述了该框架包括五个关键环节:1)业务影响和风险分析;2)方案设计与实施;3)混沌工程验证;4)异常检测、自动化和实时监控;5)错误根因分析与纠正。演讲者还分享了一个案例,展示了该框架如何帮助一个支持数千万设备的IT平台显著降低系统中断时间和修复时间。该框架旨在让系统在面临云服务中断等问题时,仍能保证业务连续性,实现高可用性和韧性。
演讲精华
以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。
在亚马逊云科技中国峰会2024的演讲中,演讲者首先感谢大家百忙之中前来参加,并表示无论是真爱还是音乐,都需要一个稳定的框架来支撑业务。随后,他分享了自己在亚马逊工作两三年期间,帮助客户进行容灾和活动共创项目时发现的一些问题。
首先,技术人员擅长的是如何实施,但在整个公司层面上,存在几个问题。第一个问题是,要花多少钱来做这件事情?如何说服领导投入所需资源?因为提高系统可用性相对来说是一个比较模糊的概念,不像”真爱”这个词那么具体。对于这种模糊的事情,如何说服公司层面来做并投入必要资源,这是第一个阶段需要解决的问题。
第二个问题是,实施完成后,很多人会认为就没有问题了。但事实上,在第三个阶段需要验证措施是否真的有效。根据演讲者的经验,他们帮助客户分析出七八十个可能的风险,但验证后的结果发现只有50%的措施是有效的,或者说只有50%的错误真的得到了解决,这意味着还有50%的问题没有解决。因此,第三个阶段的验证非常重要。
第三个问题是,如何持续改进和优化。包括很多中断是由配置错误或人为误操作引起的,如何在持续优化中解决这些问题?比如缩减平均修复时间(MTTR)的指标,是否还有更多优化空间?这也是需要解决的问题。
第四个问题是,如何避免过去出现过的问题再次发生?或者说,通过混沌工程验证出的问题,如何避免再次出现?因为在实际过程中,很多问题出现一次后还会再次出现,这是非常需要改进的地方。
演讲者表示,当把所有这些环节都串起来之后,系统的韧性就会真正提高。他还将分享一个案例来说明这一点。
在第一个环节中,需要做两件事情。一个是业务影响分析,即这个系统一旦中断或数据一旦丢失,会损失多少钱。另一个是风险分析,告诉大家系统到底面临哪些问题,不同问题的优先级是什么,有些风险可以忽略,需要对风险进行排序。
如果公司有一个很清晰的路线和战略要来做这件事情,那就可以直接开始。但如果只是临时出现问题,可以从历史故障分析入手,这也是很好的一个开始。在1点30分,将介绍一种系统分析的方法来分析。
至于方案设计和实施阶段,包括高可用、容灾、备份、微服务架构、CI/CD流水线等,相信在座的技术人员都很擅长。
第三个阶段就是活动工程,即主动地在生产环境中去探测、验证系统是否真的有效,告警是否真的有效,人员响应机制是否真的有效。这个阶段需要验证的内容,当然也可能包括一些传统的测试方法。
第四个阶段是异常检测、自动化、实时监控等,在亚马逊上面都有对应的实现方法。这里特意提出了一个错误纠正流程,这个流程是亚马逊内部无论是电商还是云服务都在使用的,也被包装成了一个workshop可以提供给客户。这个纠错流程需要注意的一点是,一定要对事不对人,需要拉出一个时间线,看看如何真正解决这个问题,从而避免问题再次发生。
第五个环节是跨区容灾等措施,以及告警的优化等。
演讲者分享了一个案例,即亚马逊的一个支持几千万设备的IT平台的改进过程,符合上述五个阶段。在第一个阶段,通过分析方法对系统现状有了全面认识,包括要花多少钱,面临哪些风险等。然后是一些KPI指标的优化,包括解耦、网关层优化等。第三个阶段就是刚才提到的混沌工程,这个客户已经从最开始的手动验证,发展到现在的持续混沌工程,与CI/CD流水线结合,进行持续验证,未来可能向自动化方向演进。通过混沌工程,发现了80多个风险。第四个阶段包括一些监控指标的优化、事件响应机制优化等。目前正在进行跨区容灾措施,还有告警优化等。非常重要的是,客户认可了错误的根因分析,即刚才提到的那个纠错流程。
通过这个项目,效果非常明显。从2022年10月开始,到去年6月,中断时间和系统修复时间都大幅减少。需要强调的是,统计了影响超过0.5%客户的中断事件,有两类原因:一类是亚马逊自己服务出现的中断,另一类是客户本身系统的问题。通过优化,到了2023年6月,并不是说亚马逊的服务就不会出现问题了,但可以做到这些问题出现后,对客户系统不会产生影响。因为任何云厂商都不可能说自己的系统不会出问题,但如何让问题出现后对业务没有影响,这是想要实现的目标。数据显示,通过这个项目,这一目标得以实现。
总之,这个五个阶段的框架被证明是非常有效的方法,可以持续提升系统的韧性和可用性,降低业务中断的风险和影响。
下面是一些演讲现场的精彩瞬间:
在亚马逊云科技中国峰会2024上,演讲者强调了稳定的技术框架对于业务发展的重要性,无论是真爱还是音乐,都需要可靠的基础设施作为支撑。
亚马逊云科技高管分享了如何说服公司领导投入资源提高系统可用性的策略和经验。
在亚马逊云科技中国峰会2024上,演讲者强调了风险管理的重要性,指出即使采取了预防措施,仍有50%的概率存在风险,因此持续监控和评估风险的有效性至关重要。
亚马逊云科技中国峰会2024:亚马逊内部错误纠正流程,对事不对人,拉出时间线解决问题
客户通过混沌工程持续验证系统风险,从手动验证逐步演进为与CI/CD集成的自动化混沌工程,确保系统的高可靠性。
亚马逊云科技致力于提高系统的可靠性和弹性,确保即使出现中断,客户的业务也不会受到影响。
总结
亚马逊云科技中国峰会2024上,一位演讲者分享了亚马逊的系统韧性建设框架,旨在持续提升系统的可靠性和恢复能力。这个框架包含五个关键环节:
首先,通过业务影响分析和风险评估,确定系统中断的潜在损失和优先风险。其次,设计并实施高可用、容灾等解决方案。第三,采用混沌工程等方法主动验证系统的有效性。接着,通过异常检测、自动化和实时监控等手段持续优化系统。最后,建立错误纠正流程,避免问题再次发生。
演讲者强调,这个框架已在亚马逊内部和客户案例中得到成功应用,显著降低了系统中断时间和恢复时间。虽然云服务本身难免偶有中断,但通过这种方法,可以确保业务系统免受影响,实现真正的系统韧性。
总的来说,这个五步骤框架为系统韧性建设提供了系统化的指导,有助于企业提高业务连续性和可靠性,应对不确定的风险。
2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。