亚马逊云科技如何实现高可靠、安全、韧性的云架构

关键字: [亚马逊云科技中国峰会2024, Amazon Web Services (亚马逊云科技), 云架构可靠性, 系统韧性设计, 控制面数据面隔离, 服务级别隔离, 单元架构设计]

本文字数: 1400, 阅读完需: 7 分钟

导读

在亚马逊云科技中国峰会2024上,演讲者古雷(亚马逊云科技架构师)分享了”解密亚马逊云科技的高可靠、安全、韧性的云架构”。他阐述了亚马逊云科技如何通过系统设计和运营实践,实现云平台的高可靠性和韧性,具体包括:控制面和数据面分离、服务隔离、单元架构、随机分片等技术手段;以及责权分明的团队管理、持续验证和纠错流程、分阶段发布等运营实践。这些措施使亚马逊云科技能够在任何中断情况下快速恢复,确保整体应用系统的可靠性。演讲还介绍了亚马逊云科技如何帮助客户建设高可靠的容灾系统。

演讲精华

以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。

在亚马逊云科技中国峰会2024上,亚马逊云科技架构师古雷阐述了亚马逊如何实现高可靠、安全、韧性的云架构。他的演讲分为两个部分:第一部分介绍亚马逊云平台本身的韧性实现,第二部分将于次日下午介绍如何帮助客户建设容灾系统。

古雷首先解释了为什么需要高可靠性架构。他表示自己大约在十多年前开始工作,当时企业的规模并不太大,比如一个头部银行或电信运营商的核心系统,可能只有200台服务器和数据库,本身的稳定性就很强。但是现在情况完全不同,随便一个百万级的服务就可能需要数以百万计的云主机,如何在这种规模下保证像小型机一样的可靠性,这是一个非常困难的挑战。因此,设计思路发生了变化,不再强调单点可靠性,而是通过系统设计来保证整体可靠性。

接下来,古雷从亚马逊云平台本身的可靠性实现作了详细阐述。根据Gartner的评估,亚马逊云平台是唯一一家位于可靠性领导者象限的公有云供应商,与国内外其他云厂商存在较大差距。这主要归功于以下几个方面:首先,在基础设施层面,亚马逊所有的数据中心都达到了最高的Tier 4级别,每个区域都有多个Tier 4等级的数据中心,并在网络、存储等多个层面实现了冗余互联,确保任何基础设施层面的故障都不会影响整体可靠性。其次,亚马逊将控制面和数据面进行了分离。控制面负责调度和管理,数据面负责实际的服务运行。两者被完全隔离,确保控制面的故障不会影响数据面的运行。古雷举例说明,去年11月亚马逊一个组件出现了控制面的Bug,导致国内外所有区域的数据面出现中断。一些云服务商由于没有做好这一隔离,导致控制面故障影响了全球所有区域,造成大规模中断。第三,亚马逊强调了静态稳定性,即数据面的运行不应依赖控制面。一些云服务商由于没有做到这一点,导致控制面故障影响了正在运行的服务。第四,亚马逊将服务划分为不同级别,如可用区级、区域级和全球级,每个级别都有自己的控制面和数据面,并做好相应的隔离。比如对于EC2服务,每个可用区都有自己的控制面和数据面,一个可用区出现问题不会影响到相邻可用区。而对于像IAM这样的全球服务,如果出现故障就会影响所有区域无法正常运行,这是不可接受的。古雷指出,有些云服务商由于没有做好这一隔离,导致身份认证服务的故障影响了所有区域的数据面无法正常运行,比如今年三四月份发生的一起事故。第五,对于同一区域内的大规模服务,亚马逊采用了单元架构的设计。比如说北京区域有10000台EC2实例,就被分成10个单元,每个单元之间完全隔离独立,客户会被随机分布在不同单元中。这样即使一个单元发生故障,也只会影响10%的客户。古雷举例说明,有一家出行平台由于没有采用单元架构设计,导致整个平台在一次故障中中断长达10个小时。第六,对于一些核心的全球服务,亚马逊采用了数据分片的策略,将数据随机分布在不同的节点上,降低了任何单点故障的影响范围。比如对于全球服务Route 53,亚马逊将100个节点上的工作负载进行分片和排列组合,分布到不同节点上,确保任何一个工作负载受影响的概率都很小。对于IAM这样的全球身份认证服务,亚马逊也采取了类似的分片策略。

除了技术层面的实现,古雷还介绍了亚马逊在运营层面的一些做法:首先,采用SRE(Site Reliability Engineering)模式,对运维工作进行明确的职责分工,责权分明。其次,每次发生故障后,都会进行深入分析并完善流程,确保同类问题不会再次发生。同时也会主动进行”混沌工程”,在生产环境中注入故障,持续验证系统的可靠性。亚马逊也可以帮助客户在其系统中进行混沌工程。第三,对所有上线操作进行严格的审查,确保符合最佳实践。亚马逊也可以为客户提供基于最佳实践的审查服务。第四,新版本的上线遵循”一盒一区域-三区域-12区域-全部区域”的分阶段策略,以控制风险范围。古雷举例说明,有一家云服务商由于发布流程不当,导致一次错误的发布影响了全球所有区域。

最后,古雷简要介绍了亚马逊如何帮助客户建设高可靠的容灾系统,这将是次日下午的主题。他分享了一个客户案例,通过亚马逊的方法论,将系统故障率从每月6-8次降低到了几乎为零,用时不到半年。该客户是一家SaaS平台,也有金融行业的客户采用了类似的单元架构设计。

总的来说,亚马逊云科技的高可靠性来自于在技术架构和运营流程上的精心设计,体现了”通过系统韧性来提高整体应用系统的可靠性”的核心理念。这对于规模庞大的现代云服务至关重要,也值得广大企业借鉴和学习。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技中国峰会2024:通过单元架构设计,将系统分割为独立的单元,降低单点故障风险,确保服务的高可用性。

4dc0c52b3def51c3ca907226107045fa.jpeg

亚马逊云科技中国峰会2024:强调即使拥有健壮的系统,如果缺乏持续良好的运营方式,也无法实现稳定性。

d8c3e46137d7200d4353dcd6a3e0ebd1.jpeg

亚马逊云科技中国峰会2024:亚马逊云科技将持续进行”红沌工程”,在生产系统中主动注入错误,以探测和验证系统的问题,并帮助客户进行主动工程,及时纠正问题。

e234d158858e1268a0b73f81b0ca7d7d.jpeg

亚马逊采用分阶段发布新版本的策略,从一个小环境逐步扩展到所有区域,以确保新版本的稳定性并最大限度减少全球范围内的影响。

a020c2fbcdebeac9d544948fe520d1da.jpeg

亚马逊云科技中国峰会2024上,演讲者分享了亚马逊内部的最佳实践,帮助客户从目标设定到持续改进,全方位提升云计算实施效率。

9e42aff0eb98918056d1bd8909344d67.jpeg

亚马逊云科技通过专业的方法论,帮助客户将系统事故从每月6-8次降低到几乎为零,彰显了卓越的技术实力。

daf854d652c5d52dda29a47c58e3c934.jpeg

总结

亚马逊云科技的高可靠、安全、韧性的云架构离不开精心的设计和持续的运营。首先,亚马逊从一开始就采用了多区域、多可用区的3A级机房设计,并在网络、存储等基础设施层面实现了冗余和隔离。更为关键的是,亚马逊将控制面和数据面分离,并对不同级别的服务进行隔离,确保单点故障不会导致全局中断。此外,亚马逊采用了单元架构和随机分片等技术,降低了单点故障的影响范围。在运营层面,亚马逊实行责权分明的团队制,建立了纠错流程和主动注入故障的红蓝工程,并对发布流程进行了严格审查和分阶段推广。通过这些技术和运营措施,亚马逊实现了高可靠、高韧性的云平台,为客户提供了可借鉴的最佳实践。

2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值