前戏

随着近几年云计算时代的兴起,公有云已逐步成为业务上线部署的首选基础设施,虽然公有云的能力与可用性远高于自建IDC,但仍然逃不了大故障的时有发生:

  • 2018.11.22 AWS在韩国遭遇了长达一小时的网络故障
  • 2018.7.24 腾讯云广州区域主备光缆中断导致故障
  • 2018.7.18 谷歌云全球负载均衡系统出现问题
  • 2018.6.27 阿里云因运维操作失误导致官网及部分产品功能出现问题
  • 2018.4.6 微软Azure 活动目录(Active Directory)访问出现问题
  • .........

同时,微服务架构广泛应用,使得大面积业务上云后出现海量云主机、容器、云函数、数据,这些“海量资源”管理也成为难题。不仅如此,据 RightScale 的2019云状况调查报告,35%的云支出被浪费。

云治理

面对业务大面积上云的环境下的云治理新挑战

1、业务部署必须考虑混合云(多区域分布、公有云私有云混合、多云混合等统称)的架构。这是趋势,也是业务可用性的保证,当然这种分布式架构对业务设计与研发能力的高求很高。

2、应用的故障发现能力。这里是指业务可用性的监测与监控。由于移动服务的“24小时在线”及微服务架构的使用,云模式下监控的频度、密度与传统的监控有所不同,要求也更高。

3、业务快速部署与调度能力。能发现故障还不够,还要建设业务快速调度与部署的能力,在提升业务可用性的同时,持续提升用户体验。

4、云资源的使用效率,切实降低成本。业务上云能大幅降低成本,这可能是个“误区”,从RightScale的调查及实际统计来看,如果云资源的使用规划、资源利用率的控制、调度能力等不配套,可能会存在巨大的浪费。