计算机系统知识
可靠性
元器件失效规律 —— “浴盆曲线(Bathtub Curve)”
浴盆曲线形状像一个浴缸,由三个阶段组成:
阶段 | 特点 | 描述 | 措施 |
---|---|---|---|
① 初期阶段(早期失效期) | 失效率高但逐渐下降 | 刚开始使用时的“不稳定期”,可能因制造缺陷、运输损伤等造成故障 | 在出厂前或安装前做“老化测试”,筛掉问题件 |
② 正常阶段(稳定工作期) | 失效率最低,基本恒定 | 元件进入稳定可靠运行阶段 | 正式投产或部署阶段,系统运行稳定 |
③ 老化阶段(磨损失效期) | 失效率逐渐升高 | 元件使用久了开始老化损坏 | 定期维护、及时更换、提前备份数据和系统 |
典型的失效率与时间的关系曲线如图,
“浴盆曲线”形象地描述了硬件设备从初用到老化的三个阶段,对保证计算机系统的可靠性至关重要。要让设备工作在可靠期,就要前期老化筛选,后期及时替换。
可靠性函数 R(t)
计算机系统的可靠性 定义为: R ( t ) R(t) R(t),即系统在从时间 t = 0 t = 0 t=0 到某时刻 t t t 之间保持正常运行的概率。
当 失效率是一个常数
λ
λ
λ(即处于第二阶段) 时,可靠性函数为:
R
(
t
)
=
e
−
λ
t
R(t) = e^{-\lambda t}
R(t)=e−λt
这是一个指数衰减函数,常用于分析电子元件和系统的寿命。
λ λ λ 是失效率,单位一般是 “每小时故障次数”。
可靠性、可用性和可维修性(RAS)
名称 | 缩写 | 含义 | 公式/单位 |
---|---|---|---|
平均无故障时间 | MTBF(Mean Time Between Failures) | 两次故障之间系统能正常工作的平均时间 | M T B F = 1 λ MTBF = \frac{1}{\lambda} MTBF=λ1,单位:小时,天 |
平均修复时间 | MTRF(Mean Time to Repair / Fix) | 故障后系统被修复的平均耗时 | 单位:小时,分钟 |
可用性 | A(Availability) | 系统在 任意时刻正常可用 的概率 | A = M T B F M T B F + M T R F A = \frac{MTBF}{MTBF + MTRF} A=MTBF+MTRFMTBF |
可靠性 | R(Reliability) | 系统在 某段时间内能持续正常运行 的概率 | 若失效率恒定: R ( t ) = e − λ t R(t) = e^{-\lambda t} R(t)=e−λt |
可维修性 | S(Serviceability) | 系统发生故障后易于修复的能力 | 越低的 M T R F MTRF MTRF → 可维修性越好 |
平均修复时间(MTTR, Mean Time to Repair) 是指 修复一个故障硬件模块 所需的时间。在一个运行中的系统中,修复通常意味着更换一个故障的硬件部件。因此,硬件 MTTR 可以看作是更换一个故障硬件模块的平均时间。
MTBF ≠ 元器件质量唯一决定,即使采用相同的元器件,不同厂商的整机 MTBF 可能差异很大。 除了元器件本身,还受到以下因素影响:组装工艺(焊接质量、电源布局是否合理)、逻辑设计(信号互连、热设计、容错能力)、系统冗余性(是否设计了双电源/热备份等)、使用环境(温度、湿度、电磁干扰)。
同样用英特尔 CPU 的两台服务器,如果一家厂商散热设计差、主板质量不行,那么它的 MTBF 会比另一家低很多。
可用性计算 举例说明:某计算机系统: MTBF = 500 小时,MTRF = 2 小时,那么它的可用性是:
A
=
500
500
+
2
=
500
502
≈
0.996
≈
99.6
%
A = \frac{500}{500 + 2} = \frac{500}{502} \approx 0.996 \approx 99.6\%
A=500+2500=502500≈0.996≈99.6%
这意味着这台计算机在任意时刻,有 99.6% 的概率是可用的,也就是:在 1000 小时中,可能会宕机约 4 小时。
指标 | 英文 | 说明 | 趋势 |
---|---|---|---|
可靠性 R R R | Reliability | 多久才会坏(MTBF 高) | 越大越好 |
可用性 A A A | Availability | 总体运行是否稳定 | 越大越好 |
可维修性 S S S | Serviceability | 坏了能否快修(MTRF 低) | 越低越好 |