MTBF,即平均故障间隔时间,英文全称是“Mean Time BetweenFailure”,就是从新的产品在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。MTBF越长表示可靠性越高正确工作能力越强。单位为“小时”。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。
MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和海洋平台上,其可靠性值肯定是不同的;又如一个额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松的得出MTBF值。
具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁盘阵列产品一般MTBF不能低于50000小时。MTBF值是产品设计时要考虑的重要参数,可靠性工程师或设计师经常使用各种不同的方法与标准来估计产品的MTBF值。
1、MTBF的计算方法
失效时间是指上一次设备恢复正常状态起,到设备此次失效那一刻之间间隔的时间。
MTBF值是产品设计时要考虑的重要参数,可靠性工程师或设计师经常使用各种不同的方法与标准来估计产品的MTBF值。相关标准包括MIL-HDBK-217F、TelcordiaSR332、Siemens Norm、Fides或UTE C80-810(RDF2000)等。不过这些方法估计到的值和实际的平均故障间隔仍有相当的差距。计算平均故障间隔的目的是为了找出设计中的薄弱环节。
2、MTBF 是平均故障间隔时间
随着服务器的广泛应用,对服务器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failurerate),常用λ表示。例如正在运行中的100只硬盘,一年之内出了2次故障,则每个硬盘的故障率为0.02次/年。
当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间,简称MTBF。即:MTBF=1/λ 。
标准故障率的曲线可以用众所周知的“浴盆曲线”来描述。所有元件和系统的曲线形状都近似相同-只是时间轴方向上的延伸率不同。它可以分为三个区域:早期故障期(I),有效工作期(II),生命终期(III)。MTTF包含了区域I和II,而MTBF只包含了区域(II)。
第I部分描述了早期故障,它通常是由潜在的材料失效或者是在发货前的终产品检测中没被发现的制造缺陷所造成的。早期故障通常持续的时间较短,即使是很复杂的系统在使用了200小时后也很少再出现早期故障。例如DC-DC转换器来说,大多数早期故障会在使用24小时之内发生。24小时对保质期为三年的转换器来说可能很短,但是试想一个DC-DC转换器的工作频率为100Hz,开关三极管和变压器在使用的第一天就会被操作1亿4千万次以上,因而如果有元件缺陷的话这段时间内就应该会发生故障。
因为热应力也是增加失效率的原因之一,从早期故障到有效工作之间的过渡时间(T1)可以通过在热箱中的预烧处理得到显著的缩短。如果产品在高温条件下工作,那么4小时的预烧时间测试就足以发现几乎所有的早期故障。如果在终应用中还是出现了早期故障,那么可以增加预烧时间。对于高可靠性的应用装置例如铁轨,预烧时间多为24小时。
在有效工作寿命阶段,区域II,故障率持续稳定在较低的等级。第二个过渡时间(T2),从有效果工作寿命阶段到产品的生命终期,受到许多因素的影响,比如设计以及所使用的元件的质量,制造时的组装质量以及应用的环境压力。区域III表明了产品寿命周期的末期,其间由于磨损,材料的化学降解和突发故障导致产品性能下降。
大多制造商使用预烧处理来发现主要的早期故障,MTBF特性通常可以在规格书中找到。
一些制造商更倾向于使用MTBF失效率的倒数,基于109小时,称为失效时间(Failures In Time/FIT):
近看到一款可用于服务器的硬盘,MTBF高达120万小时,保修5年。120万小时约为137年,并不是说该种硬盘每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬盘的平均年故障率约为0.7%,一年内,平均1000只硬盘有7只会出故障。