预案是指对潜在的突发事件事先制定的应急处理方案,在运维领域,则是为规避故障或尽快从故障中恢复而制定的方案,其目的是第一时间止损、防止局势进一步恶化,以期最大程度地保障业务系统的可用性。
切流量是应对外网故障的有效手段,这篇文章介绍下我们如何建设外网切流量预案。
外网切流量实质上是切换流量入口,而流量入口更多的则体现为IP,所以切流量其实说的就是切换IP。切换IP需要考虑很多因素,比如IP及带宽的价格、网络质量、容量、延时,以及是否操作简单。
- 延时:如果业务对实时性要求比较高,比如游戏,支付,秒杀这类业务,对延时要求很严格
- 质量:备用IP里,不同供应商的IP,不同种类的IP质量会有很大区别,可能有的经常故障,或者丢包率较高
- 容量:不同供应商,不同地域的IP出口带宽不同,如果业务流量很大,是需要合理分配的
- 成本:不同供应商,不同地域,不同种类的IP(多线,单线),带宽价格不一样,在切流量时是需要权衡的
- 操作简单:切流量时,如果操作很简单,能第一时间止损,也会作为首选
在制定切IP的预案时,需要综合考虑上面的这些因素,根据自己业务的特点选择需要优先考虑的因素。比如,当前我们的业务对实时性要求高,备用IP的价格不需要考虑,各地的带宽容量相同,IP质量差不多,操作耗时差不多,所以主要考虑延时。
我们会参考业务的主站域名监控数据来比对延时,从下面的表格数据可以看到比较结果:
注:主站域名的IP是北京电信单线IP:
可以看到同地域同运营商延时最小,其次是跨地域同运营商,其次是同地域跨运营商,再次是跨地域跨运营商。
继而定出切流量规则:
优先切同地域同运营商
其次切跨地域同运营商
其次切同地域跨运营商
再次切跨地域跨运营商
综上所述,您在切外网流量时,根据您的业务情况,综合比对延时,质量,容量,成本,操作简单这些因素,排出优先级,在外网故障时,根据优先级来做切换。
注:这些备用IP是绑定在负载均衡上的,且需要监控,没有监控的IP,是绝对不能切换的,监控不能是ping,是要和域名监控一样,可以指定host头的方式访问备用IP,类似于curl 1.2.3.4 -H host:test.com