关键字: [亚马逊云科技中国峰会2024, 云计算资源卓越运营, 跨区域灾备架构, 成本分析管控实践, 资源利用率优化, 无服务器架构应用]
本文字数: 2300, 阅读完需: 12 分钟
导读
在亚马逊云科技中国峰会2024上,杨东翔分享了领创集团基于亚马逊云科技的云上卓越运营实践。他介绍了领创集团的业务概况,包括三大业务线及主要服务国家。重点阐述了云计算资源的卓越运营,涵盖区域内容灾备原则、运行策略等。此外,他还分享了成本分析与管控实践,包括洞察、分析和持续运营三个方法论,以及资源标记、费用分摊等具体做法,帮助领创集团实现云计算成本优化。
演讲精华
以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。
各位嘉宾,下午好。我是领创集团的运维负责人杨东翔,今天我将与大家分享领创集团基于亚马逊云科技的云上卓越运营实践。主要内容分为三个部分:首先是关于领创集团的介绍,其次是业务中云计算资源的卓越运营,重点是第三部分,即整个领创集团关于成本分析和管控的实践。
第一部分,领创集团的介绍。集团下设有三个业务线:Advance AI主要从事EQI C相关业务,面向ToB市场;Jenny是一个面向商家的平台,类似于电商ERP;Tommy则是一个数字消费业务市场。我们的主要服务国家集中在东南亚地区,包括新加坡、印尼、菲律宾、马来西亚和泰国。我们为超过500家ToB客户提供服务,Tommy业务覆盖了20万家商户和4000万消费者。
第二部分,关于云上资源的卓越运营,我将重点讨论Tommy业务。在新加坡,Tommy与阿里电商有支付合作,基于亚马逊的要求,我们需要建立跨区域的灾备。因此,我们首先对新加坡本地区域的服务架构进行了梳理,主要分为三个层面:前端是完全容器化的服务,运行在EKS上;中间是数据缓存层;后端是RDS数据存储,包括周边的一些中间件,如MSK、日志监控等基础监控服务。
在区域内,我们遵循以下原则:尽量使用亚马逊云科技的托管服务;所有服务强制要求跨多个可用区平均分布。对于基础设施的韧性,我们要求无状态服务如API和管理后台上线时,必须以Deployment的形式部署多个副本,平均分布在三个可用区,以确保单个可用区出现问题时,服务仍可正常提供。对于有状态服务,如RDS,我们要求必须是多可用区部署,并进行物理备份和云上快照备份。其他业务中间件则完全依赖亚马逊云科技托管服务的稳定性,根据过去两年的数据,这些托管服务的SLA可以达到99.99%的可用性。因此,我们评估新加坡区域的服务可用性达到99.99%。
区域内的服务运行策略是,所有核心主流程服务都需要纳入运维体系,强制要求多可用区平均分布,不允许单点服务存在。数据层根据不同业务需求选择合适的数据库,如RDS或Aurora,以保证服务SLA。
接下来,我将把时间交给亚马逊云科技的SA丁玉恒,他将为大家介绍我们的跨区域容灾实践。
玉恒:感谢东翔老师。大家现在能坚持到这里都是真爱。除了东翔讲述的跨可用区容灾之外,我们在领创集团还做了一个非常好的跨区域容灾实践,以满足金融行业的高可用和合规性要求。我们将核心应用进行了跨区域容灾,称之为”首页灯”模式。
大家知道,跨区域容灾有不同策略,如双主区域、主备模式等。在主备模式下,我们采用了一种独特的”首页灯”模式,其基本理念是数据进行同步,但应用不拉起。也就是说,在备区只同步数据库服务,其他应用服务在灾难发生时才快速重建。这样做的好处是,在应用不拉起的情况下,一旦发生灾难,我们仍能在备区快速拉起应用服务。
为实现这一目标,我们采取了一些实践:首先,使用CI/CD流水线,通过CloudFormation和CDK等自动化工具快速构建云上基础设施;其次,容器镜像同时发布到主备两个区域;再次,使用亚马逊云科技参数存储服务标准化应用配置。有了这些,我们就能在灾难发生时,在所需区域快速重建应用。
接下来,我们看一下具体的部署架构。最上层是Route 53 DNS服务,主区为新加坡,备区为俄勒冈。通常情况下,DNS会将流量导向主区的服务。我们采用经典的三层架构,包括负载均衡层、计算层(使用EKS)和数据层(RDS/Aurora MySQL),中间加入了缓存和日志层。主备区的架构完全一致,只是在备区,除数据库服务持续运行外,其他服务都是在灾难发生时通过标准流程快速重建的。
在计算层,我们使用Kubernetes的Cluster Autoscaler根据流量自动伸缩集群。此外,我们还使用了亚马逊云科技的无服务器服务,如Lambda函数、Aurora Serverless等,以按需付费的方式提高资源利用率,降低运维成本。
讲到无服务器,它并不是说服务器不存在,而是对用户来说服务器是不可见的。我们不再需要配置操作系统、虚拟机规格等,只需声明所需资源,亚马逊云科技就会自动为我们提供计算资源。亚马逊云科技在这方面做了大量创新,使我们能真正按需使用资源,极大降低了运维成本。
接下来,我们继续讨论领创集团在成本优化方面的实践。东翔,现在继续交给你。
东翔:谢谢玉恒。现在我将与大家分享领创集团关于整个集团不同业务线的成本分析和管控方法。我们的理念是”每个人的工作都是成本管控”,成本管控不是一个人或一个团队的工作,而是需要所有业务部门参与的长期工作。我们践行FinanceOps的理念,指导整体的云成本管控。
正如前面提到的,领创集团旗下有三个不同业务形态的业务线:人工智能、数字消费和电商ERP。对于不同的业务线,我们采用同一套方法论管理成本,包括洞察、分析和持续运营三个方面。
首先是洞察。主要手段包括资源标记、费用分摊和费用洞察。费用洞察是指我们需要知道在云上使用的每种产品每月的费用占比,以及与上月的环比变化。费用触达则是将分析结果以报表形式展示给所有业务线负责人。
其次是分析,包括三个方面:一是分析资源利用率是否符合业务需求,比如识别CPU和内存平均利用率同时低于30%的实例,并建议优化;二是提高预留实例和节省计划的利用率覆盖率,确保高覆盖率;三是优化服务架构,比如将一些小规格实例的服务迁移到Kubernetes集群。
第三是持续运营,包括每月审视成本变化、环比和同比分析,并向全员灌输成本意识。
接下来,我将详细介绍上述三个方面的实践。
第一,资源标记。由于我们在多个国家开展金融业务,每个国家都有独立的公司实体和账号,每月会收到单独的账单。因此,我们首先按业务线、国家和账号进行成本分类。例如,Advance AI在印尼的业务账号与Tommy在印尼的账号将分开统计。此外,我们还将业务线的资源进一步划分为业务资源和基础设施资源。
其次,我们为每种资源设置标签,以统计测试环境、生产环境,以及每个业务线的具体成本。例如,ID_PRD表示印尼生产环境,C06表示某业务线的测试环境。
第三,我们统计每种云服务的费用占比,如EC2、ELB、EBS、RDS等,并分析与上月的环比变化。
对于无法标记的资源,如EMR的Spot实例、企业支持费用等,我们将根据调用链对其进行归属,或按各业务线的总费用占比进行分摊。
为确保统计数据的准确性,我们还会定期调用Amazon Web Services API扫描所有资源,检查是否遗漏标记。
第二,分析。我们通过聚合各业务线的Prometheus监控数据,识别CPU和内存平均利用率同时低于30%的实例,并将这些低利用率资源整理成报表发送给相关负责人,建议优化或直接关闭。我们的数据会与亚马逊云科技的可信赖顾问服务的数据进行校验,确保发送给业务线的数据准确无误。
通过上述措施,我们的计算资源费用下降了30%,数据库费用下降了49.6%。随着成本管控工作的持续推进,整体云计算费用将进一步下降。
第三,我们还会定期扫描计算、数据库、缓存等资源,检查预留实例和节省计划的利用率覆盖情况。如果覆盖率不足,我们会通知相关负责人考虑购买新的预留资源。不过,由于我们业务覆盖国家众多,对于某些国家的业务,我们需要评估是否值得购买一年期的预留资源。如果是集团公用的基础设施资源,我们可能会购买三年期,以降低30%左右的成本。
第四,我们会根据成本报表和利用率数据,为业务线提供优化服务架构的建议,如将小规模实例的服务迁移到Kubernetes集群、将有状态服务外包给亚马逊云科技的数据库服务等。
总的来说,成本管控是一项长期的系统工程,需要全员参与并建立成本意识。我们会每月为集团CEO和各业务线负责人提供准确的成本报表,从上到下推动成本管控。在技术层面,我们建立了一整套成本管控的措施。
展望未来,我们希望能够坚持成本管控的长期实践,让所有人都树立起成本意识,特别是研发和运维人员。我们也将与亚马逊云科技的解决方案架构师、技术经理和业务拓展经理紧密合作,坚持云原生和亚马逊云科技最佳实践,进一步优化云上资源的利用效率,降低整体成本。
以上是我想与大家分享的领创集团基于亚马逊云科技的云上卓越运营实践。通过跨区域容灾、成本优化和持续改进等一系列实践,我们在确保业务连续性的同时,也最大限度地降低了运营成本。这离不开亚马逊云科技提供的云原生服务和解决方案的支持。我们也希望通过这次分享,为大家在云上运维方面提供一些有价值的经验。谢谢大家!
下面是一些演讲现场的精彩瞬间:
领创集团运维负责人杨东翔分享了该公司基于亚马逊云科技的云上运营实践。
Tommy在新加坡与阿里电商合作时,基于亚马逊云计算的要求,采用了跨Region的灾备恢复策略,确保了业务的高可用性和数据安全性。
亚马逊云科技中国峰会2024上,演讲者详细阐述了资源标记在不同业务线中的应用,以及如何满足海外金融业务的监管要求。
亚马逊云科技中国峰会2024上,演讲者详细阐述了如何通过资源标签来精细管理云端资源成本,为企业带来更好的成本控制和优化。
亚马逊云科技中国峰会2024上,演讲者分享了亚马逊内部成本分摊和分析平台的详细计算逻辑,为各业务线提供透明化的成本分析报表。
亚马逊云科技中国峰会2024上,演讲者分享了如何通过与内部团队合作,利用亚马逊云科技现有工具聚合数据,确保向业务线提供准确的成本管控数据,推动资源使用率优化和降低成本的持续工作。
总结
亚马逊云科技为领创集团提供了卓越的云上运营实践。领创集团在东南亚地区拥有多个业务线,包括人工智能、电商平台和数字消费市场。他们在新加坡与阿里电商合作,需要跨区域灾备。为确保服务的高可用性和韧性,他们采用了多可用区部署、亚马逊云科技托管服务、多副本部署等策略。同时,他们还建立了跨区域的异步数据同步机制,以实现区域级容灾。
在成本优化方面,领创集团践行了FinanceOps理念,通过洞察、分析和持续运营来管控成本。他们利用资源标记、费用分摊等手段,对不同业务线、环境和产品的成本进行了细致的拆分和分析。此外,他们还监控资源利用率,优化服务架构,提高预留实例利用率,从而进一步降低成本。通过这些持续的努力,领创集团在计算和数据库方面实现了显著的成本节省。
领创集团的实践展示了在云上实现卓越运营和成本优化的有效途径,为其他企业树立了典范。通过与亚马逊云科技的紧密合作,他们充分利用了云计算的弹性、可靠性和经济性,为业务发展提供了坚实的基础。
2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。