3 政务云运维管理要素框架
政务云运维服务管理由运维活动角色及运维管理组织结构、运维服务支撑系统、运维管理对象、运维管理流程和IT运维服务等五个要素组成,其主要内容及其相互关系如下图所示。
运运维维管活理动组角织色结及构运维服务供应商 运维管理部门 运维部门 使用 制定/实施 使用 服务台 配置管理 变更管理 事件管理
4 政务云业务运维活动角色及运维管理组织结构
政务云业务运维活动角色是指从事运维活动的所有组织、部门或者具体工作人员,一般包括运维服务提供者、运维服务使用者、以及运维服务管理者三类角色。各类角色在运维活动中所构成的组织形式构成了运维管理组织结构。 5 政务云业务运维服务支撑系统
运维服务支撑系统是支撑运维管理组织中各运维角色按照规定的运维流程开展运维活动的信息化系统。一方面,运维服务支撑系统支持运维服务提供者对运维服务管理对象进行管理,以实现运维服务的能力;另一方面,支持运维服务提供者按照商定的服务级别协议方便地向运维服务使用者提供运维服务;同时,要支持运维服务管理者对整个运维服务的考核、监督和评估。
运维服务支撑系统运维管理对象 外包管理 综合管理 流程管理 安全管理 监控管理 资产管理 管理 运维部门和人员 IT供应商 IT用户 IT应用系统 IT基础设施 调用 运维管理流程问题管理 发布管理 服务级别管理 知识管理 财务管理 供应商管理 值班管理 作业计划管理 考核管理 应急预案管理 培训管理 IT基础设施运维服务 调提供 试IT应用系统运维服务 安全管理服务 网络接入服务 内容信息服务 综合管理服务 IT运维服务
图1 政务云运维管理框架
4
6 政务云业务运维管理对象
运维服务管理对象主要包括基础设施、物理资源、虚拟资源、数据、平台资源、应用资源、用户和IT供应商。广义概念下,有时也将组织内部从事IT运维活动的部门和人员作为运维服务管理对象。
图2 政务云运维管理对象
7 政务云业务运维管理流程
运维服务管理流程是指联系运维服务提供者、运维服务使用者以及运维服务管理者之间开展规范化协同工作的机制和方法。完整的运维服务管理流程应该覆盖运维服务的规划、设计、运行和持续改进等各个环节,本规范主要针对支撑运维服务运行阶段的相关流程。运维服务管理流程的信息化可借助运维服务支撑系统得以实现。
政务云运维管理的流程如图3所示。 规划续改进 例行操作 政务云运维管理 响应支持 优化改善 SLA满足 需方 咨询评估 SLA需求 供方 持远程 运维方式 现场 政务云运维管理 设计运行
5
图3 政务云运维管理流程
8 政务云业务IT运维服务
IT运维服务是运维服务提供者向运维服务使用者提供的服务产品,相关的运维服务质量应该可度量,服务提供方式应该符合规定的流程。在本部分中规范的运维服务包括云设施运维服务、基于云的应用系统运维服务、云安全管理服务、支持政务云网络接入服务、内容信息服务以及其他综合管理服务。运维服务的自动化实施需要依靠运维服务支撑系统。
联系运维服务提供者、运维服务使用者以及运维服务管理者之间开展规范化协同工作的机制和方法。完整的运维服务管理流程应该覆盖运维服务的规划、设计、运行和持续改进等各个环节,本规范主要针对支撑政务云运维服务运行阶段的相关流程。运维服务管理流程的信息化可借助政务云运维服务支撑系统得以实现。 9 政务云系统运维 9.1 计算资源池
9.1.1 服务实施对象和活动
对象为分布式的虚拟计算资源(虚拟机、虚拟机监控器(Hypervisor)、虚拟计算资源池(Resource Pool))集群,充分利用集群汇聚的强大威力,对海量数据做分布式的处理快速的完成数据分析工作。集群的维护特点是集中管理,集中控制,集中运维,有效监控,提前预警感知,为计算系统的正常而有序的运行提供坚实的基础。 9.1.2 例行操作 9.1.2.1 监控
虚拟计算资源监控主要监控虚拟计算资源的运行状况变化趋势及其指标。具体见表1,包括但不限于:
表1 服务对象 虚拟计算资源 监控内容 虚拟机监控器CPU负荷 虚拟机监控器磁盘IO负荷 虚拟机监控器内存负荷 虚拟机监控器网络IO负荷 虚拟机监控器网络链路状态监控 虚拟机监控器服务进程监控 虚拟机监控器计算资源分配监控 虚拟机监控器系统日志异常监控 计算资源池资源分配监控 虚拟机CPU负荷 虚拟机磁盘IO负荷 虚拟机内存负荷 虚拟机网络IO负荷
6
9.1.2.2 预防性检查
对于虚拟计算资源预防性的检查,包括:虚拟计算资源故障的提前预警,系统运行趋势的分析,安全日志的分析等。
虚拟计算资源的预防性检查参见表,包括但不限于:
表2 虚拟计算资源预防性检查表 服务对象 虚拟计算资源 性能检查 检查虚拟机监控器CPU使用峰值情况 检查虚拟机监控器内存使用峰值情况 检查虚拟机监控器文件系统空间使用情况 检查虚拟机监控器IO读写情况 检查虚拟机监控器网络流量情况等 检查虚拟机的资源分配情况 检查计算资源池的资源分配情况与分配策略 脆弱性检查 检查物理服务器关键硬件部件是否存在故障 检查计算资源池资源分配是否超过预定阀值 当前虚拟机监控器版本是否安装相关风险补丁 检查虚拟机监控器服务进程的健康状态 检查虚拟机监控器文件空间使用是否达到预定阀值 检查虚拟机监控器系统数据安全防护设置是否满足要求 检查虚拟计算资源安全隔离有效性 9.1.2.3 常规作业
对虚拟计算资源的常规作业参见表,包括但不限于:
表3 虚拟计算资源常规作业表
服务对象 虚拟计算资源 常规作业内容 更换损坏的硬件 虚拟机监控器软件升级 日常的可靠性计划制定与演习 脚本维护 制作虚拟机快照 虚拟机手工迁移 虚拟机资源配置更改 虚拟机备份、克隆与恢复 虚拟机的维护包括创建虚拟机,并进行启动、停止、删除、回收等操作 虚拟资源池的扩容与资源再分配 制作与升级标准虚拟机模板 虚拟机映像维护 虚拟机转换 虚拟资源的访问控制与权限管理 制作系统运行状况报告
9.1.3 响应支持
9.1.3.1 事件驱动响应:
针对虚拟计算资源所依赖的硬件,网络及软件故障而进行的响应,包括但不限于 a) 解决物理服务器故障 b) 解决物理网络设备故障
7
c) 解决虚拟机监控器软件故障或者缺陷 d) 虚拟机紧急迁移 e) 虚拟资源池紧急扩容 9.1.3.2 服务请求响应:
根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于: a) 数据备份与恢复 b) 虚拟机备份与恢复 c) 系统扩容 d) 虚拟机供应 e) 虚拟机迁移、回收、变更 f) 虚拟资源池变更 g) 虚拟资源池的高可用配置、计划实施与演练 h) 报表清单 9.1.4 优化改善 9.1.4.1 适应性改善
根据应用系统的要求,进行改善 a) 虚拟计算资源CPU、内存容量、硬盘容量、网络的调整 b) 虚拟计算资源迁移 c) 虚拟机监控器资源调度的算法 9.1.4.2 增强性改善
根据应用的特点和发展要求,以及数据量处理能力要求进行升级,扩容等 a) 物理服务器计算能力扩容 b) 物理服务器内存扩容 c) 物理服务器网络吞吐能力扩容 d) 虚拟计算资源高可用性增强与演练 e) 虚拟计算资源容错机制增强与演练 f) 虚拟计算资源备份恢复测试 9.1.4.3 预防性改善
根据对虚拟计算资源的运行记录和趋势的分析发现潜在的隐患而进行的改进作业,包括但不限于: a) 根据系统监控得到的信息替换可能存在问题的内存,CPU,硬盘,网络设备等 b) 根据系统的压力增长趋势主动对物理服务器的数量进行必要的扩容 c) 根据系统的发展趋势对网络系统采取必要的扩容 9.1.5 咨询评估
通过对虚拟计算资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出物理计算设备、虚拟机监控器、虚拟计算资源池、虚拟机的改进建议和方案。 9.2 存储资源池
9.2.1 服务实施对象和活动
服务实施对象是通过虚拟化建立大规模的分布式虚拟存储资源(虚拟存储卷、存储资源池、服务控制器),
8