信息系统可靠性影响因素与对策

运维 服务器运维
在技术因素方面,导致系统失效的原因也有很多,例如硬件故障,设备驱动、操作系统和应用软件的故障。其中,随着硬件制造工艺水平的提升,可靠性大大提高,与之相比,软件故障的影响因素更为突出一些。那么在这种情况下,提高系统硬件的可靠性还有没有意义?

对于一个信息系统,特别是关键业务系统而言,可靠性非常重要。有数据统计显示,金融信息系统每小时的停机代价是250万美元,制造业最少也要2.8万美元。这还仅仅是2000年的统计结果,如今企业对信息系统的依赖程度更高,停机所造成的损失也就更大。

 


 
 对信息系统可靠性产生影响的因素有很多,有人为因素、过程处理和技术因素。其中,人的因素可以通过培训、认证来提高管理水平,减少因为经验缺乏导致的错误。对于处理过程中的偶然错误,这就需要系统具有足够的技术能力。

 


 
在技术因素方面,导致系统失效的原因也有很多,例如硬件故障,设备驱动、操作系统和应用软件的故障。其中,随着硬件制造工艺水平的提升,可靠性大大提高,与之相比,软件故障的影响因素更为突出一些。那么在这种情况下,提高系统硬件的可靠性还有没有意义?

答案是显而易见的,特别对于关键业务系统,很多用户采用集群的方式来提升可靠性。集群的方式是通过双机或者更多的机器,借助集群软件来提升系统的可靠性。但其中一台机器设备发生故障时,由另外一台设备来接替故障设备的工作。最理想的状况,是无缝切换,但在实际工作中往往做不到,有各种原因会导致系统切换不成功。此外,有时候也会导致在不该切换时候的误切换,这都会降低系统的可靠性。

较之集群,容错具有更高的可靠性级别。容错系统从整体上可视为一台机器,由两套独立硬件系统构成,受时钟锁步系统控制,在相同指令周期内执行同一条指令(参见图)。

 


 
容错系统特有的ASIC故障检测系统将对CPU、 内存、 芯片组、磁盘、 I/O 等部件的处理结果进行比对,相同执行下一步,不相同则从新计算。容错系统不仅可有效应对硬件故障,还可以避免各种不可预知的因素,如电磁干扰、尖峰脉冲等对可靠性的影响,避免潜在的计算错误所导致的风险。因此对于关键业务应用,应该选择具有更高可靠性的系统。

至于软件故障对系统可靠性的影响,唯一的办法就是升级软件包,打补丁。但是无论如何,硬件系统的高可靠性基础,是不可或缺的条件。所谓皮之不存,毛之焉附?

 

责任编辑:常疆 来源: 51cto.com
相关推荐

2013-11-11 09:55:19

虚拟桌面VDI存储

2010-12-28 19:50:21

可靠性产品可靠性

2015-12-28 10:27:18

数据中心电网

2013-11-04 17:05:37

银行容错

2018-05-08 07:01:52

数据中心可用性可靠性

2010-12-28 20:21:26

2011-05-25 19:31:07

Stratus信息化

2010-12-28 20:16:24

2019-08-30 12:10:05

磁盘数据可靠性RAID

2009-04-08 10:23:00

软交换网络可靠

2011-08-19 15:59:40

2010-10-09 10:06:39

UPS

2011-08-18 13:58:08

2018-01-08 21:07:20

医院双活

2020-12-06 14:51:23

物联网可靠性IOT

2010-12-28 19:55:20

软件架构可靠性

2017-06-23 18:25:51

kafka数据可靠性

2013-11-04 17:04:22

容错可靠

2022-01-12 09:01:24

分布式系统容错服务

2011-04-18 14:05:15

可靠性系统测试嵌入式系统
点赞
收藏

51CTO技术栈公众号