容错服务器,有500多个故障检测点,可随时发出错误警报和通知。这些故障中,有处理器、芯片组、内存寻址、字节和电源的错误,有内部总线协议、CRC、ECC、系统时钟、系统服务、散热系统等的错误。对于标准工业服务器,来说,任何错误都可能导致系统瘫痪。更可怕的是,这些错误是随机的,很多都是暂时的错误。如果系统重启,一些故障会消失。与故障相比,有些误差不容易检测出来,导致计算结果错误,危害更大。
工业标准服务器之所以有这样的问题,主要与设计理念有关。运行时间不是它的主要设计目标。它只有有限的冗余功能,如电源,需要群集以提高其可靠性。相比之下,小型机的可靠性设计更高,用来保证系统的可靠运行。小型机在故障点检测方面有许多保障机制。通常小型机价格比较高。随着处理器技术的发展,特别是英特尔至强7500系列处理器的引入,IA处理器在可靠性和性能设计上已经接近小型机使用的RISC处理器,但在标准工业服务器的系统上还存在一定差距
工业标准服务器的优势在于价格,小型机的竞争力在于可靠性高。有什么办法可以两全其美?只有在系统结构上想办法,双机、集群和容错都是不错的方法。
双机集群通过软件方式和故障机之间的切换来提高可靠性。相比之下,容错是通过采用硬件方法和特殊的故障处理和保证机制来提高系统的可靠性。与单机相比,容错具有更高的可靠性,其中容错还具有纠正临时错误的能力,可以保证计算的正确性。
小型机也通过双机和容错来提高可靠性,但是成本更高。随着IA处理器可靠性性能的提高,采用容错服务器来提高系统可靠性已经成为许多用户的明智选择。与双机相比,容错服务器的硬件成本高于双机方案,但考虑到软件因素,容错服务器还是比较有竞争力的。在这种情况下,以Stratus的ftServer为代表的容错服务器,的门槛大大降低,成为关键业务应用的理想选择。