IBM PC服务器故障诊流程

2019-03-11 09:05

IBM PC服务器故障诊断流程 一、状态确定:

状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示

灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析。故障定位侧重于判断坏在哪里; 二、故障定位:

故障定位的时候,我们用到的手段非常多,下面,利用POST的过程; 1、POST阶段复习:

广义的POST过程是指从按下电源开关到开始引导系统,共分为三个过程: 电源供电阶段?核心部件初始化阶段?狭义POST阶段 2、电源供电阶段:

从按下电源开关的瞬间开始,设备就开始工作了;

电源是动力的源泉,供电系统的良好是设备正常运转的基础; 如果问题出现在电源这边,那么之后的一切都进行不下去了; 电源问题:

供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检; 故障表象:

机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。 诊断方法及过程:

供电系统是一条完整的链路,不是单指电源模块; 市电及插座?电源线?电源模块?电源分配板?主板;

首先,要确认市电供电是否正常;包括使用的插座或者PDU(power distribution unit)模块;

其次,查看电源线是否接好,电源线本身是否OK; 诊断方法:

替换法+最小化法+指示灯法+排除法;

替换法:拿确认完好的备件去替换故障设备上的相应备件; 最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBM X346(8840)为例,下面为IBM X346(8840)能够启动的最低配置:

指示灯法:一般在电源模块上都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和DC(直流电)。 3、 核心部件初始化阶段:

核心部件初始化问题:

电源OK之后,在真正的POST开始之前,其实要有一个准备过程,即核心部件的初始化过程; 如下:

电源→CPU →BIOS →CMOS →内存(前64k) →I/O总线控制器→显卡系统 这些部件都是POST要开始的必须条件,POST实际上是由他们来完成的,所以在他们初始化成功之前,POST不会开始;

注:核心部件的初始化,只是为了满足POST,他们初始化成功,并不代表他们所有功能都OK;所以,在他们初始化之后,还会有一个对他们自己的POST过程;所以在整个POST过程中,CPU之类的核心部件会被检查两次,一次初始化,一次才是真正的POST; IBM:

(1).机器电源风扇转,电源灯常亮,但机器无显示。

(2).机器无显示,机器前面板!指示灯和光路诊断板上的LED指示灯亮黄灯或者红灯; (3).机器无显示,但有明显的B-B-CODE报警声。 诊断方法及过程 IBM:

(1).确认机器显示器是否连接正常,并正常工作。 (2).确认机器前面板上的LED指示灯是否正常, 确认光路诊断板上的指示灯是否正常; 确认主板上的LED指示灯是否正常; Eg:IBM X346(8840)为例: 前面板指示灯:

查询手册:Hardware Maintenance Manual and Troubleshooting Guide?Chapter 1. General information?Front view

硬盘:

①硬盘驱动器活动指示灯(绿色)

该灯闪烁表示硬盘有数据读写操作; ②硬盘驱动器状态指示灯(绿色) 该指示灯点亮,则表示驱动器发生故障。如果服务器中安装了可选的IBM ServeRAID 控制器且该指示灯在缓慢闪烁(每秒闪烁一次),就表示正在重建(rebuild)驱动器。当指示灯快速闪烁(每秒闪烁三次)时,表明控制器正在识别该驱动器。

黄灯点来那个就说明该驱动器发生了故障,频率较高的闪烁表明服务器正在识别该驱动器,频率较低的闪烁说明服务器正在重建驱动器。

操作信息面板:

操作员信息面板的含义: 系统错误指示灯 如果该指示灯点亮,则表示发生了系统错误。系统错误指示灯还位于服务器背面。系统板上光通路诊断面板上的指示灯也点亮,以帮助隔离错误。该指示灯由BMC 控制。 按下操作员信息面板右侧的释放滑锁来将操作员信息面板滑出并查看光通路指示灯和按钮。 如果此绿色指示灯点亮并不闪烁,则表示服务器打开。如果该指示灯在闪烁,则表示服务器关闭,但是仍连接到交流电源。当此指示灯熄灭时,表明已切断交流电源或者电源或指示灯本身出现了故障。服务器后部也有电源指示灯。 注:如果此指示灯熄灭,并不表示服务器没电。此指示灯可能已烧毁。要切断服务器的所有电源,必须从电源插座拔出电源线。 按下该按钮可手动打开和关闭服务器。电源控制按钮护罩与服务器一起提供。您可以安装此磁盘形状的护罩以防止意外关闭服务器。 如果此绿色指示灯点亮,则表示某个硬盘驱动器正在使用。 注:在两个位置显示了SCSI 驱动器的硬盘驱动器活动:硬盘驱动器本身和操作员信息面板上的硬盘驱动器活动指示灯。SATA 驱动器没有硬盘驱动器活动指示灯。SATA 驱动器指示硬盘驱动器活动的唯一位置是在操作员信息面板上 如果服务器位于其它服务器中间,此中间(蓝色)指示灯可以帮助您从视觉上区分出该服务器。可以使用IBM Director 来远程点亮该指示灯。该指示灯由BMC 控制。 如果此淡黄色指示灯点亮,则表示发生了一般事件。请检查光通路诊断面板 释放滑锁 电源指示灯 电源控制按钮 硬盘驱动器活动指示灯 位置指示灯 信息指示灯 光路诊断板指示灯:

查询手册:Hardware Maintenance Manual and Troubleshooting Guide? Chapter 3.

Diagnostics? Light Path Diagnostics 光通诊断板的含义: 含义 操作 光路诊断板点亮,系统错误LED点亮或者系统信息LED点亮 OVERSPEC 点亮表示没有足够的电1.如果只安装一个了一个电源,请量为系统供电,安装另外一个可选电源;2.更换故NONRED和LOG也会点障的电源 亮 点亮表示一个电源故障或被卸下;冗余电源中一个电源的DC灯熄灭 保留 1.保证电源冗余;2.更换故障电源 PS LINK CPU 点亮微处理器发生故障;确保正确安装处理器;发生了配置闪烁表示发生了无效的错误保证所安装的CPU的各个参CPU配置 数都一致 点亮表示微处理器稳压模块发生故障;闪烁表示进行了无效的配置 更换故障的VRM,如果问题仍存在请更换主板;保证正确安装VRM VRM LOG 点亮表示BMC日志或者系统错误日志为75%已满;如果可系统错误日志中,两个之以保存并清除日志;检查日志可以一已满或者全部几乎已找到潜在的错误 满 点亮内存故障;闪烁表示进行无效的内存配置 点亮表示出现机器检查错误 点亮PIC适配器出现故障;PCI-X板上相应的更换系统板上点亮LED的故障内存;保证DIMM的正确安装 检查系统错误日志和BMC日志 检查BMC日志或者系统错误日志;更换故障的PCI适配器 MEM NMI PCI LED也会点亮 SP 点亮服务处理器发生故障 从服务器上卸下交流电源;然后将服务器重新连接到交流电源并重新启动服务器;如果故障仍存在请更换系统板 检查驱动器上的指示灯并更换指示的驱动器 DASD 点亮出现硬盘驱动器错误;出现错误的硬盘驱动器上的错误指示灯也会点亮 点亮RAID控制器出现故障 点亮表示服务器正在使用非冗余的电源;LOG灯也有可能点亮 点亮表示温度超出系统阙值 点亮风扇发生故障或者转速过慢;故障的风扇在系统板上的指示灯也会点亮 RAID NONRED 检查BMC日志系统错误日志;更换故障的RAID卡 更换故障电源; TEMP FAN 确定风扇是否发生故障;保证机房内温度在正常范围内 更换故障的风扇 PCI BRD CPU BRD I/O BRD 点亮表示PCI-X板出现重新安装PCI-X板组合件 故障 点亮表示微处理器托盘出现故障 I/O板出现故障 重新安装微处理器托盘 重新安装;更换故障I/O板 注意:不是所有设备的光路诊断板都可以从前面板上拉出来查看的,一些老设备是将光路诊断板设计在机箱内的,需要开盖查看; 主板指示灯:


IBM PC服务器故障诊流程.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:弹性力学简明教程(第四版) - 课后习题解答

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: