网站高可用指的就是:‘在绝大多的时间里,网站一直处于可以对外提供服务的正常状态。’
业界通常使用有多少个“9”来衡量网站的可用性指标,具体的计算公式也很简单,就是一段时间内(比如一年)网站可用的时间占总时间的百分比。
1、可用性等级
四种最常见的可用性等级指标,以及允许的系统不可用时长:
一般,我们以“年”为单位来统计网站的可用性等级。“9”的个数越多,一年中允许的不可用时间就越短,当达到 5 个“9”的时候,系统全年不可用时间只有区区 5 分钟,可想而知这个指标非常难达到。
所以一般来讲,业界的网站能做到 4 个“9”,也就是说在一年内只有 53 分钟的时间网站是处于不可用状态,就已经是算是非常优秀了。
2、造成不可用的原因
造成网站不可用的主要原因有以下三大类:
1. 服务器硬件故障;
2. 发布新应用的过程;
3. 应用程序本身的问题。
3、高可用架构设计方案
第一类方法: 从硬件层面加入必要的冗余;
第二类方法: 灰度发布;
第三类方法: 加强应用上线前的测试,或者开启预发布验证。
3.1 加入必要的冗余
对于硬件故障造成的网站不可用,最直接的解决方案就是从硬件层面加入必要的冗余,同时充分发挥集群的“牲口”优势。
3.2 灰度发布
使用灰度发布的前提是,应用服务器必须采用集群架构。假定现在有一个包含 100 个节点的集群需要升级安装新的应用版本,那么这个时候的更新过程应该是:
- 首先,从负载均衡器的服务器列表中删除其中的一个节点;
- 然后,将新版本的应用部署到这台删除的节点中并重启该服务;
- 重启完成后,将包含新版本应用的节点重新挂载到负载均衡服务器中,让其真正接受外部流量,并严密观察新版本应用的行为;
- 如果没有问题,那么将会重复以上步骤将下一个节点升级成新版本应用。如果有问题,就会回滚这个节点的上一个版本。
- 如此反复,直至集群中这 100 个节点全部更新为新版本应用。
在这个升级的过程中,服务对外来看一直处于正常状态,宏观上并没有出现系统不可用的情况。就好比是为正在飞行中的飞机更换引擎,而飞机始终处于“正常飞行”的状态一样。