应急预案
3.3 物理架构图
3.4 系统关联关系图
3.5 系统关键文件说明 3.6 数据备份策略 3.7 监控预警措施
4 系统应急场景分类及描述
4.1 故障场景分类
系统故障场景按照故障特点分为五类:硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。
1. 硬件故障场景:主要包含系统硬件方面的故障场景。例如服务器异常宕机、设备
CPU异常、设备内存异常、设备磁盘异常、设备网卡异常等。
2. 通用软件故障场景:主要操作系统、数据库软件、中间件等方面的故障场景。例如
AIX操作系统异常、Weblogic服务异常、系统数据库崩溃等。
6
应急预案
3. 应用软件故障场景:主要包含业务应用系统方面的故障。例如系统应用响应缓慢或
无响应、应用进程异常、系统应用无法启动、交易异常报错等。
4. 网络故障场景:主要包含与网络相关的故障场景。例如WEB与DB间网络异常或不
可用、IP地址异常或出现冲突、数据传输中出现异常丢包等
5. 其它故障场景:主要包含系统相关的外联系统、外部环境等方面的故障。例如机柜
异常掉电、与外联系统交易异常、设备被人为破坏等。
4.2 硬件故障场景
? 主机硬件故障导致服务器宕机 ? 设备硬盘异常
4.2.1 主机硬件故障导致服务器宕机
故障说明: ? 处理时间 ? 现象 ? 现场保护 ? 应急方法 ? 操作步骤 ? 验证方式
4.2.2 设备硬盘异常 4.3 通用软件故障场景
通用软件常见故障事件列举如下:
? 操作系统(AIX)文件系统空间利用率高 ? 操作系统(AIX)用户无法登陆 ? 操作系统(AIX)内存不足 ? 操作系统(AIX)CPU繁忙 ? 操作系统(AIX)磁盘繁忙 ? 中间件(Weblogic)Crash ? 中间件(Weblogic)内存溢出 ? 中间件(Weblogic)挂起
7
应急预案
? 中间件(Weblogic)占CPU高 ? 数据库(Oracle)性能异常 ? 数据库(Oracle)文件损坏 ? 数据库(Oracle)表死锁
? 数据库(Oracle)归档日志满导致挂起 ? 数据库(Oracle)表空间OffLine ? 数据库(Oracle)实例监听宕掉
8
应急预案
4.3.1 操作系统(AIX)文件系统空间利用率高 4.3.2 操作系统(AIX)用户无法登陆 4.3.3 操作系统(AIX)内存不足 4.3.4 操作系统(AIX)CPU繁忙 4.3.5 操作系统(AIX)磁盘繁忙 4.3.6 中间件(Weblogic) Crash 4.3.7 中间件(Weblogic)内存溢出 4.3.8 中间件(Weblogic)挂起 4.3.9 中间件(Weblogic)占CPU高 4.3.10 数据库(Oracle)性能异常 4.3.11 数据库(Oracle)文件损坏
4.3.12 数据库(Oracle)归档日志满导致挂起 4.3.13 数据库(Oracle)表空间OffLine 4.3.14 数据库(Oracle)实例监听宕掉 4.4 应用软件故障场景
通用软件常见故障事件列举如下:
9
应急预案
? 用户无法登陆WEB应用界面 ? WEB应用无法启动 ? WEB应用响应缓慢或无响应 ? WEB中某一联机交易大面积异常报错 ? 对外服务端进程异常 ? 对外服务端无法启动
10