System之Dependability

1、reliability
人们用两个标准来衡量dependability:reliability(可靠度) and availability(可用度)
reliability:连续工作的时间,可以用mean time to failure(MTTF)来表示。

failure rate=1/MTTF,而failure rate的单位是FIT(failures in time)
FIT定义为在billion hours(10^9小时)的时间段内failure的次数。

计算一个系统的failure rate就是将它各个部件的failure rate加起来,这样做有一个前提,
就是假设system的错误的几率与它的使用时间无关。

计算一个系统的MTTF步骤如下:
A、计算每个部件的failure rate
B、将所有的failure rate加在一起,得到该系统的failure rate。
C、取该系统failure rate的倒数,就是该系统整体的MTTF。

MTTR(mean time to repair):就是从failure中恢复的时间。也就是修好系统的时间。

MTBF(mean time between failures):两次failure的时间间隔。
MTBF = MTTF+MTTR

2、availability
对于nonredundant system的availiability公式为:
availiability = MTTF/(MTTF+MTTR) = MTTF/MTBF

3、对于一台服务器来说,fan和power supply的MTTF一般会最小,所以需要redundancy。
比如使用双电源,冗余风扇等等。那么,如果将single power supply改为
redundant power supply对于power supply的dependability会有怎样的影响呢?
假设power supply的MTTR是24hours,power supply的MTTF是200,000hours  。

先算redundant power supply的failure rate=(2/MTTF)*(MTTR/MTTF)
2/MTTF表示两个power supply的failure rate;
MTTR/MTTF是当一个power supply坏掉后,而一个也坏掉的几率。

redundant power supply的MTTF=1/failure rate=MTTF^2/(2*MTTR)=4150*200,000hours
很明显,它的MTTF提高了4150倍。

4、上面的例子中,加了一个power supply后,power的MTTF增加了4150倍,那么它对整个
服务器的dependabiltiy的影响是什么呢?
有两种方法可以计算:
A、将这台服务器的各个部件的failure rate加在一起,然后取倒数就是这台服务器整个的
MTTF,然后将新的MTTF除以旧的就是它提高的程度。
B、就是利用Amdahl's Law(不了解Amdahl's Law的读者,可以先学习一下它的定义,
在该篇文章中没有详述),假设在单power时,power的MTTF占整个server的20%,则会有
如下公式:
speedup=1/(1-20%+20%/4150)=1.25

就是说,通过增加了一个power,使该server的dependability提高了1.25倍。


我的新浪的blog:http://blog.sina.com.cn/treeintherain,有更多文章。



(完)

                                             [此为原创,转载请标明出处,谢谢!]
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值