作者:ITValue特约专家 陈罡 / 日期:2010-06-07
近期ITValue社区在热议“双机热备”这一话题,其实从系统整体来看,当双机热备起作用,必然是发生了导致系统使用故障的事件。从多年的运行经验出发,我总结了造成系统不可用的6个主要原因和解决办法,供大家工作时参考,希望能尽量避免宕机的发生。
原因1:网络故障。
原因2:应用系统本身所固有的问题。
当处理某些问题时,资源耗用过大,造成系统性能急剧下降,导致整个系统几乎无法使用。
原因3:基础设施问题。
包括电源、空调等的故障以及维修保养造成停机。空调故障造成过热而使得存储系统热保护,进而主机也进入热保护状态,但主要原因还是机房设计不合理所引起的。
原因4:系统部署方案的不合理。
因为备份方案的问题,造成操作系统的文件系统崩溃进而导致宕机。
原因5:人为原因。
曾因电工误操作,关闭所有UPS的输出开关,造成所有设备停机。
原因6:硬件故障。
原因1网络问题的发生,是一个综合性的管理问题,病毒防护的缺失,网络滥用等等;原因2和4主要是对系统的不熟悉导致解决方案的偏差,从管理上找原因,可能是未能全面正确的评估——但这个确实比较难,很多问题是因为本身的业务模式所决定的解决方案的独特性,进而使用了非普遍使用的方案和技术,增加了风险;原因3是未能正确平衡投资与系统可用性的缘故,未能随系统应用的发展而及时调整基础平台;原因5的发生绝对是基本管理缺失;原因6,硬件故障是真正的依从概率而发生的,反映了系统运维管理的缺失。
我总结,双机热备方式只是一个保险措施,CIO只有更多的加强IT管理,将技术、人、流程、IT风险管理等综合考虑,才是IT管理的价值所在。
(本文作者为丽晶时代电子线缆有限公司信息管理部经理)