4. 故障快速定位
4.1. 快速定位流程
说明:请在此描述当系统出现未知故障情况下,应急人员因按照何种预设流程进行故障排查,以便能快速定位系统故障。为规范和方便大家填写故障快速定位流程,在预案模版中预设一个空白的应急预案的维护流程,预案修订人员需要根据系统特点修改完善。
4.2. 定位流程描述
说明:请根据上节的定位流程图,翔实描述各具体定位流程步骤。)
1、 2、
4.3. 故障快速定位排查内容
说明:请在此详细描述在系统故障排查时,可能涉及的检查的内容、执行的命令、指标阀值等。在预案模板中预设了快速定位排查表,主要涉及应用应用软件、网络状态、硬件状态、通用软件等检查内容。 预案修订人员要求认真考虑排查的优先顺序,按照最快故障排查定位的原则对优先顺序进行排序。每步排查步骤都要求有检查内容、操作步骤、操作/复核人、检查结果等具体信息。并要求根据排查结果指定下一步检查内容。如故障定位检查需要相关系统配合,也请按照排查顺序,将相关检查内容添加到排查表中。
如检查内容较多,可在排查表中简要描述检查项,详细内容放在预案附录中。
第 21 页 共 34 页
5. 系统应急场景分类及描述
5.1. 故障场景分类
说明:请预案修订人员根据系统特点,在此对故障场景进行分类并简要描述,要求故障场景分类应能覆盖系统所有可能出现的故障场景。
示例:
系统故障场景按照故障特点分为五类:硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。 1.硬件故障场景:主要包含系统硬件方面的故障场景。例如。。。 2.通用软件故障场景:主要操作系统、数据库软件、中间件等方面的故障场景。例如。。。
3.应用软件故障场景:主要包含业务应用系统方面的故障。例如。。。 4.网络故障场景:主要包含与网络相关的故障场景。例如。。。 5.其它故障场景:主要包含系统相关的外联系统、外部环境等方面的故障。例如。。。
5.2. 硬件故障场景
说明:请在此详细列举并描述系统可能出现的各种硬件场景,在预案模板中列举了一些常见的故障事件,预案编制人员要根据系统实际情况酌情修订。修订后预案表中的列举的故障事件都要求在预案随后的章节里进行详细描述。(预案编制人员在修订应急步骤时,建议参考
第 22 页 共 34 页
平台部编制的通用故障处理方案,该方案内包含LINUX、AIX、HP-UX、INFORMIX、ORACLE通过故障处理流程和应急处理步骤。) 在预案模板中,系统硬件常见故障事件列举如下: 1) 大型机异常报错 2) 小型机异常报错 3) 加密机设备异常 4) 服务器异常宕机 5) 设备网卡异常 6) 设备CPU异常 7) 设备硬盘异常 8) 设备内存异常 9) 设备光纤卡异常 10) 设备RAID卡异常 11) 设备HA卡异常 12) 设备串口卡异常 13) 设备其它部件异常 5.2.1. XX故障事件
说明:请在XX处补全具体故障事件名称。 ? 修订日期:
说明:请在此描述该故障事件处置最近一次验证和修订的日期。 ? 事件级别:
第 23 页 共 34 页
说明:请在此设定该故障事件等级(一级/二级/三级/四级/五级/六级)。划分原则请按照《中国建设银行信息系统生产事件等级认定规定(试行)》(建总发〔2010〕138号)对事件级别的划分。 ? 授权级别:
说明:请在此设定执行该故障救治步骤所需要的授权级别中心领导授权/部室负责人授权/部室日常授权)。授权级别的设定可参照中心总体预案中的授权级别设定原则。 ? 处置时间:
说明:请在此在设定执行救治措施,完成故障处置该所需要的时间。 ? 场景描述:
说明:请在此简要描述该故障场景可能出现的状况和现象。 ? 验证方法:
说明:请在此简要描述可确认该故障事件验证方法和手段。 ? 现场保护:
说明:请在此描述进行现场保护所使用的现场收集脚本。部分脚本可见附录。 ? 救治步骤:
说明:请在此此翔实描述故障救治步骤,要求细化到具体的操作指令。如救治步骤调用前面标准处置章节的内容,则必须在此注明调用的具体章节号及名称。
第 24 页 共 34 页
示例:
邮件网关集群中一台设备硬件宕机 ? 修订日期:
最近一次验证和修订的日期为2011年3月11日 ? 事件级别: 五级事件 ? 授权级别: 部室负责人授权 ? 处理时间: 26分钟 ? 场景描述:
1. 应用监控人员通过邮件、短信、实时监控等渠道得知主机不可用。
2. 应用用户可以ping通主机IP地址,但不能从控制台登入操作系统,且未发现硬件故障灯亮。 ? 验证方法:(3分钟)
1. 进入主机房检查主机上是否有硬件报错或是否有黄灯闪,如果没有则说明不是因为硬件的损坏导致的主机不可用。 ? 现场保护:(3分钟)
第 25 页 共 34 页