措施,所需保障措施,报告要求,通报范围和对象。】
由现场责任人提出启动应急预案的申请,应急响应责任人对预案启动的必要性,影响性进行充分评估后,与相关业务部门进行沟通确认,授权预案启动。预案启动后以电子邮件的形式发布通告,通告对象包括包括客服中心和信息化部门二级经理及与系统相关的三级经理。通告内容包括预案启动原因,事件级别,对应预案,技术应对措施,所需保障措施等。预案的启动过程在事件处理系统中记录。
第二章专有名词定义:
预警阀值:即预警的边界值,当设定对象超过设定值范围时,就会发生报警动作。
第三章 应急处置
3.1 应急调度
【当故障发生或者将要发生时,告知相关人员进行按照相应的预案进行应急准备。
由现场责任人提出启动应急预案的申请,应急响应责任人对预案启动的必要性,影响性进行充分评估后,与相关业务部门进行沟通确认,授权预案启动。预案启动后以电子邮件的形式发布通告,通告对象包括保障小组长、副组长;领导小组长、副组长。通告内容包括预案启动原因,事件级别,对应预案,技术应对措施,所需保障措施等。预案的启动过程在事件处理系统中记录。
】
3.2 排查诊断
应急负责人调度处置人员进行现场和远程的故障排查;处置人员随时向负责人反馈进展和结果;将排查与诊断的过程与结果信息进行整理与归档。处置过程中,现场责任人应及时与相关利益方进行沟通,沟通的内容主要包括系统故障点、造成故障的原因、排查诊断状况等,并取得确认。
3.3 处理恢复
1) 启动应急方案 2) 上报优先原则
3) 故障发生后,对故障进行相应的处理,在必要情况下告知用户。 4) 故障恢复后,以公告进行告知。
3.4 事件升级
【建立、审议应急事件升级的策略和程序,以控制应急事件升级的授权和实
施。当实际处置时间超过事件级别处置时间要求,或业务影响范围扩大时,可以考虑事件升级。组织应该对事件升级可能造成的影响进行评估,并在相关方之间达成一致。升级内容应包含预案调整、人员调整、资金调整以及设备调整。事件升级的实施授权应由现场负责人启动,并按照流程通报给相关方。应该对事件升级的过程和结果信息进行整理与归档。】
事件级别定义:
? 一级事件:【举例:影响全省业务或业务中断时间超过4小时。】 ? 二级事件:【举例:影响多个市区县业务或业务中断时间超过2小时。】 ? 三级事件:【举例:影响一个市区县业务且业务中断时间未超过2小时。】
事件升级流程:
当事件的发展超出了当前事件级别定义的条件时,由现场负责人授权事件升级。事件升级前需要评估升级后所采取的措施对其他业务产生的影响。事件升级的内容包括要求厂商现场支持,紧急采购调配备件,对更大范围的关联设备进行联调等。现场负责人将升级的内容和影响通报业务部门,并取得确认。事件升级的内容、过程、结果记录在事件处理系统中。 【流程图中应包含升级流程。】
3.5 持续服务
业务恢复后,系统负责人持续监测信息化系统业务是否正常工作,观察4小时以确认所采取的应急措施长期有效,业务可以稳定运行,没有造成其他影响。系统负责人对后期监测的结果给出监测报告。
3.6 事件关闭
【建立、审议事件关闭的策略和程序,以控制事件关闭的授权和实施。事件关闭申请应由相关的分组负责人提出,整理并提交相关文档资料。现场责任人接到事件关闭申请后,应逐项核实报告内容。当应急事件涉及到责任认定、赔偿或诉讼时,应收集、保留和呈递证据。现场负责人应向相关利益方通报事件关闭信息。应急事件发生的原因、处置过程和方法记入知识库。】
确认业务恢复正常后,由系统负责人提出事件关闭申请。系统负责人整理事件处理过程中的日志,设备信息,处理记录,报表,监测报告,提交现场责任人。现场负责人接到事件关闭申请后,对提交的报告逐项审核,其中如涉及到责任认定,赔偿或诉讼时,收集保留所需的证据。事件发生原因,处置过程,处理方法等信息记录到事件处理系统中,作为知识库用于总结和处理同类事件的参考。核实后现场负责人向业务部门通报事件关闭。
【流程图中应包含事件关闭流程。】
第三章专有名词定义:
应急指挥调度:是发生突发等事件后,应急指挥机构为保障系统安全、优质、运行和规范运营,促进资源的优化配置和环境保护,对系统进行的组织、指挥、指导和协调。力求在短时间内执行应急预案,实现现场指挥人员以及后方指挥人员随时对现场的情况的掌控,以便针对情况及时发布指令。
事件:在某一工作服务中不属于标准操作的并能导致、或可能导致这个服务的中断或服务质量下降的任何事件
第四章 总结改进
【应急处置后,对发生的应急事件做总结分析,并定期对历史应急事件进行分析和回顾,总结经验教训,采取适当的后续措施。对应急事件的分析和回顾应考虑以下方面:应急事件发生原因、数量及频率;应急事件处置的经验得失;应急事件的趋势信息;信息系统中潜在的类似隐患。对应急事件的分析和回顾形成总结报告。】
应急处置结束后一周内,对发生的应急事件做总结分析,包括技术和管理两个层面。技术上深入分析问题发生的原因,处置方法是否根本解决问题,系统中是否还存在类似技术漏洞或潜在隐患,彻底规避类似风险的解决方案等。管理上对本次应急事件处理中的处置流程,资源准备,组织协调,处置方法等环节分析得失,总结经验教训,如果发现重大问题可以组织修订应急预案。
应急方案的制定是为了让维护或值班人员明确在发生重大故障时的处理方法和流程以提高工作质量和效率。做到在发生重大故障时应急方案能够快速启动。
每季度对本年度发生的应急事件进行回顾总结,对事件发生的数量,频率,原因,趋势进行分析,发现其中的问题隐患,及时对潜在问题进行弥补。
所有分析总结形成报告,经审核后存放在知识库中备查。
【总结报告模板中应包含以上内容】