当前位置:首页 > 生活 > 正文

服务器三大组件出现的故障分析

08-24 生活

服务器三大组件出现的故障分析

企业负载应用得多了,服务器遇到的故障是很平常的事情,以服务器三大组件出现的故障与大家共同分享,可以有效避免大家在以后的业务平台上出现。

服务器核心——CPU

故障回放:做过测试的朋友知道,一台基于Intel至强服务器,开机无显示,系统指示灯疯狂的闪烁,最直接怀疑是CPU与主板的接触不良,但将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应。

解决方案:在这种状况下经测量,CPU电压居然出现异常,原来是CPU的VRM(VoltageRegulatorModule,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,至此只能更换CPU。

服务器读取性能——内存

故障回放:之前在一台安装2条2GB内存的服务器上,由于自身承载的服务过多,服务器的处理数据的速度越来越慢,于是,通过增加2条同型号的内存条来升级服务器。将这些内存全部插入主板后,系统检测只有6GB,另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。

解决方案:通过服务器产品官方网站了解,该种情况是因为该服务器的内存插槽是配对使用,1-4、2-5、3-6、7-10、8-11、9-12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,将内存插到5槽,8GB内存顺利被检测。

可见,服务器内存的优势不仅仅体现在性能上,在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,之前提到的内存采用的ECC(错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。

服务器存储核心——硬盘

故障回放:每台服务器会出现死机、无征兆的重启,如果频繁出现,就会经数据中心IT运维人员进行检测后发现是硬盘工作时间太长,出现了物理坏道。于是立即将硬盘做备份和更换是最佳解决办法,将硬盘内的数据导出,结果在转移数据的过程中,不停地弹出I/O错误,这直接导致数据转移的速度非常慢,且丢失了很多重要数据。

解决方案:这种情况多数是磁头或者盘片出现了错误。如果拆开硬盘盘片出现了划伤,但面积并不大,通过专业的公司可以通过更换磁头后重新恢复数据,恢复了95%以上的数据,这种情况相对来说比较幸运。

但通常说防患于未然,如果这个故障发现的及时,在盘片没有出现更多物理损伤前予以解决,一旦等到盘片损坏严重,数据将永久性丢失,为了避免这种状况的发生建议做到以下: