5.2.1.3.5 系统故障分析
XXXX系统9-12月出现故障情况如下,在故障发生的第一时间,运维人员收到监控系统的邮件通知,并在收到邮件通知的第一时间进行处理,并把故障原因通报XXXX公司相关负责人,在完成后进行记录、整理,输出相应的故障报告等:
故障出现时间 2011-9-24 11:30 故障服务器 192.168.8.2 故障起因 网络问题 故障影响 因为8.1和8.2服务器做的是负载均衡8.2出现暂时连接不上,不影响业务的正常运行 2011-10-25 192.168.6.6 数据库服目前未对外提已修复 是否修复 已修复 (机器网络不通,重启后恢复正常。 务器硬件问题 供服务,本次故障 未造成对外服务的影响。 5.2.1.4 现网作业工作
任务简介 制作模板 签发操作员ZS 模板备份 系统升级 防火墙操作 系统升级 核实数据 系统部署 系统备份 任务描述 生成个人,企业,服务器模板,有效期为3年 签发LA操作员ZS 系统现有模板进行备份 系统920版本部署上线,并进行功能测试 核查防火墙配置 XXXX V001R001B004版本的上线升级 去后台数据库核实数据 安装部署XXXX业务监控系统 去机房配合粟钫对防火墙进行配置、对ocsp数据库进行排错定位、对备份服务器的配置 硬件支持 现场协助惠普工程师处理数据库服务器问题, 最后硬件故障解决, p数据库恢复正常 IDS加电检查 渗透测试 软件验收 应急演练 检查绿盟的IDS入侵检测设备加电情况 配合华为对XXXX系统进行入侵检测和渗透测试 XXXX软件验收KMC、XXXX部分 配合XXXX局方进行XXXX系统应该演练 执行人 备注 5.2.2 业务协维
5.2.2.1 系统业务管理
? 创建ZS模板:因项目需求创建项目适用ZS模板,并做好模板备份工作。 ? 创建受理点:为项目创建新受理点,配置人员等。
? 创建应用类型:为集团采购部项目创建单独应用类型,便于项目ZS量
的统计及数据分析。
? 操作员权限分配:一方面满足项目需求,另一方面根据安全规范分配。 ? 系统升级上线业务功能测试,保证系统业务功能的可用性与完整性。 ? XXXX系统内部全面测试:完成内部系统测试,为XXXX系统软件功能
验收测试做好充足准备。
? 系统监控系统功能部署前测试及功能演示等工作。
? 参与XXXX系统定制开发需求的评审并提出修改意见,与开发人员配合
讨论确认方案,保障开发前需求评审及方案制定工作顺利完成。 ? 配合南基4A系统接入的联调测试。 5.2.2.2 运营支撑内容
? 受理集团的上线。 ? 等。
? 平台相关人员对XXXX的问题。
5.2.2.3 ZS业务客户服务与支持
受理集团的ZS业务客服咨询与故障投诉申报;ZS业务流程咨询、ZS使用问题技术支持。
1) 指引、FAQ等日常文档输出:
?
? 《XXXX业务系统接入指引》 ? 《CMXXXX Open API需求规格说明书》
2) 系统业务测试:系统920版本部署前测试,及功能演示,上线后功
能验证等工作。
3) 系统业务测试:系统1129版本部署前测试,及功能演示,上线后功
能验证等工作。
5.2.2.4 运营数据分析
此图为2011年XXXXZS发放分析
XXXX发行月度统计分析 统计指标 10月 8月 9月 11月 12月 合计 指标分析说明: ?
5.2.3 专家服务
5.2.3.1 运维体系的建立
制定规范制度:规范ZS发行、客户服务等工作流程行为,基于经验、结合CMXXXX的业务特性,制定了CMXXXX数字ZS发行规范、、CMXXXX数字ZS客户服务规范等文档。为建立健全运维、运营体系提供了坚实的基础。
5.2.3.2 输出文档
? 《XXXXCMXXXX应急响应计划》 ? 《CMXXXX系统运维规范》 ? 《CMXXXX行规范》 ? 《CMXXXX客户服务规范》
5.2.3.3 运维、系统二线支撑
? 机房网络现场调试 ? 网管监控方案及讨论
? 定制开发需求评审 ? 部署方案审核 ? 现网作业密码管理 ? XXXX 明年发展规划
5.2.3.4 运营优化
根据项目支撑情况,提出日常运营优化建议:
? 规范ZS申请流程 ? 规范ZS使用流程 ? 规范UKEY使用流程
5.2.3.5 XXXX应用接入
。
5.2.3.6 运维风险评估
渗透测试:为了保障XXXX系统的安全性,应XXXX基地要求,地XXXX进行渗透测试,从外网到内网全方位、漏洞渗透等,取得了良好的效果。
5.2.4 系统定制开发
根据应用项目的特性、运营人员提出的优化需求,进行需求分析、评审,输出解决开发,协调资源进行定制开发工作,把控定制开发质量。
1) XXXX支持二级审核开发及上线
改造XXXX,使其支持二级审核。对应用类型配置其下ZS的审核级别。如果是一级审核,。
2) 系统监控功能的需求分析及评审
对CMXXXX系统业务进行监控,当系统异常时通过邮件方式通知系统维护人员。系统暂时不考虑对系统权限的管理控制。
3)
系统定制开发功能的测试环境搭建。部署XXXX定制开发到测试环境,完成测试组内测试,进而运营人员针对业务功能进行测试并已完成测试。目前XXXX11月版本已部署上线,验证工作也已基本结束。
6 规范运维流程
随着运维工作的逐渐开展,在与XXXX公司的工作配合过程中,通过引入XXXX公司的服
务运营管理平台(somp),规范了运维工作流程,包括事件管理流程等。
所谓事件,是指系统运行过程中突然出现的造成服务中断或服务质量下降的突发现象。事件管理流程通过对事件的相关环节进行规范,从事件的记录开始,经过分类和初步支持、调查与诊断、解决和恢复,直到与客户确认后事件的关闭,流程中的各个环节前后相连,流转有序,并规定每一环节处理的最长时限。通过事件记录员、事件分析员以及事件经理等角色的明确,责任到人。从而达到在发生事件后,能在最短的时间内解决并恢复客户中断的服务,提高客户满意度。
XXXX公司通过开发XXXX业务流程监控系统,定时对XXXX业务流程进行监控拨测,在XXXX发生故障第一时间通过邮件或短信的方式通知运维工程师,运维工程师第一时间进行故障处理并上报XXXX相关负责人,并在故障出理完成后,输出故障报告给XXXX公司,使得对每次故障做到跟踪、归纳总结的作用。
7 总结与明年展望
随着2011年的脚步慢慢走远,XXXX公司在XXXX公司的大力支持下,XXXX运维工作已经步入正轨,按XXXX公司和XXXX的要求完成了对XXXX的维护工作,保障了XXXX的平稳运行,通过回顾总结今年的工作,也发现运维工作中存在不足的地方,XXXX公司力争在以后的工作中改进。
2011只是XXXX运维工作的一个起点,2012年随着更多XXXX外部与内部业务系统的接入,XXXX也面临着越来越大的负载,同时运维工作也面临新的挑战,无论是对XXXX系统能力保障、业务人员协维能力,都将给XXXX公司和XXXX公司提出更高的要求,需要运维人员能力提升到另一个高度,XXXX公司在面对挑战面前,非常有信心,在XXXX公司的指导和支持下,对现有运维人员进行技术能力、业务能力等多方面提高,根据业务发展要求,增加各方面资源投入,明年会更加出色的完成XXXX运维工作,把运维工作更加规范化、专业化,更上新台阶。