谈谈网络服务-3

服务和“五个九”

如今,具有关键业务应用程序的企业正在部署下一代网络,在设备和协议方面与网络服务提供商的工程非常相似。和他们的服务提供商同行一样,这些企业在设计开发网络时开始争取五个九可用性。“五个九”是业内人士用来表达卓越的短语。它指99.999%的网络正常运行时间,通常被定义为网络SLA中预期可用性的目标。典型的SLA在可用性、数据包丢失、延迟和抖动方面量化网络性能。在许多情况下,如果没有满足所保证的SLA,企业和服务提供商都将付出一定的代价。

5个9通常适用于网络的可用性;SLA的其他部分通常指定其他度量单位,例如在网络的任何部分的延迟将不会超过80毫秒,或者抖动将小于300微秒。五个九概念很重要,因为它涉及网络设计和潜在的故障场景。必须严格网络设计并加以进行验证,以确保这些故障场景中的恢复后对业务的影响最小。

5个9对你真正意味着什么?如何实现它?首先,您需要决定如何衡量您的网络可用性。是否计算了更改窗口期间的停机时间?您会衡量可用性还是正常运行时间?路由器可以启动,你的网络管理软件仍然可以通过PING或SNMP轮询到达它,但它可能不会传递数据包;从技术上讲,路由器启动了,但它不可用。路由器启动但不可用通常是最难解决的问题,在创建服务计划时需要考虑很多因素。

一旦您的公司决定了如何衡量可用性,您就可以开始制定网络设计、部署、测试计划,以实现您的目标。看看表1-2,看看五个可用性意味着什么。

下表说明,要实现五个九个可用性,需要设计和确认每月只有25.9秒可测量停机时间的网络。这里真正的关键是,停机时间必须是可测量的。如果路由器崩溃,但关键的网络工作流量在两秒钟内重新收敛,您可能只有两秒钟的停机时间,而不是恢复路由器所需的时间。对于任何网络工程师来说,一个包含冗余设备和电路的设计都是实现5个9点的唯一方法。规划和设计由你的设备重新上线而导致的事件也是很重要的。

表1-2
在这里插入图片描述
网络规划应考虑到导致网络中断的主要原因,其中包括以下内容:

硬件故障
软件故障
互连设备故障(布线)
传输介质故障(链路)
容量不足
人为错误
设施问题
以上原因在一个网络中很容易出现,包括人为错误。后续,我们将讨论好的网络设计及规划将如何应对硬件、软件、电缆、电路和容量问题的几种方案。没有什么简单的方法来规避人为错误,只有规章制度及警钟长鸣。减少人类错误(你永远无法完全避免它)的最好方法是有强大的操作过程。之前提到过变更管理程序对于大企业是多么麻烦的业务案例。这些程序在很大程度上是为了防止由人为错误造成的停机时间。

由设施问题造成的一些故障,如停电或漏水导致的损坏,都由冗余设计可以覆盖,只要它们是在您的网络设计中规划的。冗余的设备不应彼此相邻,以避免许多常见的设施问题,主要还是机房问题导致的故障,如水损坏、暖通空调故障和某些电气问题。如果您的设备相距足够远,您应该考虑距离、特殊光学硬件以及在网络规划中考虑延迟。

一旦您了解了如何衡量网络的可用性,您就可以创建适当的网络规划。规划的业务对于网络要求的参数将因基于“人类感知”可用性还是“机器感知”可用性而有所不同。为了澄清这一点,想象一下你的同事会查看她的网络邮件。她点击浏览器,通过15秒;她不耐烦地点击了浏览器中的刷新按钮,这样她的网络邮件就可以阅读了。从她的专长来看,她每天都在做一些事情,刷新浏览器,一切都很好。从系统的角度来看,在这15秒内可能有数百个问题。当她刷新浏览器窗口时,她可能刚刚被重定向到全球一个完全不同的数据中心。如果您正在评估人类感知,您可能允许15秒的停机,而不是将其计入缺乏可用性;这实际上是许多企业衡量可用性的方式。另一方面,网络管理系统可能会认为15秒为重大中断。

必须了解整个应用程序系统在网络工作不稳定期间将如何运行。如果应用程序服务器与后端数据库服务器的通信中断10秒,或者对备份服务器的影响最小,它们是否会“锁定”?如果网络不稳定,服务器是否会在主数据库服务器和备份数据库服务器之间来回切换?尽管并未超过SLA中定义的15秒的绝对阈值,但这些条件是否会引发“人类感知到的”停机?

在定义网络目标及其成功标准时,必须考虑所有的关键企业IT应用程序。例如,同样的15秒的网络事件,可能不会被视为web服务器上的中断,对视频会议的观众来说将是一个大问题。这里要指出的是,根据特定应用程序对损失的容忍度,人们对可用性通常有不同的期望。在没有定义的SLA的情况下,应该编写网络设计方案,以满足最严格的应用程序的目标,而不是最宽容的目标。这里建议使用应用程序要求来定义网络可用性设计方案的成功标准。如果网络中的1秒停机时间被认为是停机,那么显然不到1秒的故障转移时间应该是通过该部分网络的每个收敛参数的要求之一。当您规划设计网络以达到5个9个可用性时,您应该在部署后,运行多次测试并记录所有结果。有准确的结果,记录在正确的格式,将允许您在启用新硬件或功能,并确保它们将帮助您改善您的网络。

单点故障
冗余故障的高概率(故障没有检测到或冗余未实现)
高概率的双重故障
长收敛时间重新路由流量
中断需要硬件和软件升级
长恢复时间重启或切换
没有硬件备件在现场
长修复时间由于缺乏故障排除指南和过程
不适当的环境条件
大故障域
反应支持模型
没有IT服务管理框架
如果您使用正确的冗余类型和相关特性设计您的网络,并在实施部署中确保它们将按预期工作,您将顺利达到五个九个可用性。正确的部署过程可能很复杂,因为您将检查网络是否具有高可用性特性、快速收敛性、层次结构、硬件、电路和布线冗余、可扩展性、路径多样性、可管理性等等。拥有正确的部署过程,写一个好的规划设计,拥有正确的设施工具、设备和人员将是让你到达那里的重要组成部分。

显然,由于当今网络的复杂性,停机需要更长时间来排除和解决。如果您有一个有效的设计规划及部署策略,您肯定会尽量减少网络停机时间和由于更改而造成的损失。您将拥有一个更有效的网络,能够更有效地排除故障,并且必须返回更少的更改。您将能够更有信心地推出新的功能和硬件,并帮助您的公司更赚钱。

虽然这些网络服务内容并不是你唯一能做的事情来避免与长期停机相关的损失,但它肯定为你在时间和金钱上的投资提供了巨大的回报。

待续…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

竹林子的摩卡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值