(一)工作时间:
网络运维部工作时间为7*24小时运维保障。
(二)工作方式:
值班运维工程师:通过轮班运作实现7*24小时职守。400电话7*24小时支持
网络运维部非值班人员:5*8小时工作时间,非工作时间保证7*24小时手机开机,
随时提供远程技术支持。
(三)工作内容:
1、每天两次进行业务系统、网络运行状况及对外服务器服务状况监控巡查;
2、按照规定的时段巡统计并汇总运维表单。(流量统计、事件统计、问题统计、手里投诉统计等)
按照规定的时段查看路由、防火墙等关键系统运行情况,包括网络流量、带宽占
用率等,重点检测关键设施,并记录;
4、按照规定的时段检查对外WEB、DNS服务器和EMAIL服务器的服务状况是否正常,并记录;
5、接待员工电话申告或讯问应做完整、详细记录,快速响应,及时确定原因,积极组织处理,同时记录解决问题的操作过程,问题解决后应及时回复申告人; 6、遇到不能处理的问题时,通知相关人员或及时汇报,并记录;
8、工作人员要有强烈的安全意识,巡查时应注意发现各种可能的安全隐患并及时排除。
(四)工作要求:
1、工作人员必须坚守值班岗位,确保24小时有人值守,认真履行职责;
2、未经批准不得擅离职守,除了吃饭时间(吃饭时间应在工作日志上记录),其他时间随意外出;
3、工作期间不得做与工作无关的事;
4、加强设备巡视,网络监控,发现问题及时处理,同时报告; 5、工作人员应有强烈的责任心,争取在第一时间发现问题,及时解决; 6、认真填写工作记录,不得乱写乱画和擅自撕毁;
7、不得擅自拆毁设备、关闭服务器,不得私自安装与公司网络运行无关的软件,不得私自修改系统配置参数;
8、工作人员应要熟悉机房设备,熟悉网络及线路的基本情况;
9、工作人员按规定的权限作好系统运行和管理工作,不得越权操作系统的硬软件; 10、工作人员应熟练掌握故障险情的处理流程,遇事沉着冷静;
11、对于违反工作规定,或责任心不强造成不良影响的,追究工作人员的责任。
请示报告制度
(一)工作中如有下列情况应及时请示报告:
1、汇报上级指令的执行情况和工作中遇到重大问题时; 2、系统出现严重问题甚至故障时;
3、系统出现方向性中断,不能保障网络畅通时;
4、需要更换网络设备、修改网络设备和服务器参数配置时; 5、调换工作人员时;
6、系统安全受到严重威胁,如火灾、雷击或其它严重性自然灾害时; 7、其它不能自行解决的异常情况时。 (二)请示报告通常应逐级进行。
机房和工作间管理制度
公司网络机房及各工作机房,要制定严格的工作制度,参加公司网络运维保障的人员应严格遵守。
(一)严格遵守各项设备操作规程。
(二)爱护系统设备,未经许可不得擅自拆、改或挪作它用。
(三)未经许可严禁在值勤系统设备上私自安装使用与系统无关的软件。
(四)保持良好的机房工作秩序。维修工具、仪器仪表、资料和表报等放置整齐、定位准确。 (五)按规定着装(工作服)进入机房,不得任意换装。
(六)机房内严禁吸烟、打闹、会客,或从事与维护工作无关的活动。 (七)未经许可严禁无关人员进入机房。
(八)未经许可,任何人员不得在机房或其它工作间内摄影或录像。
资料和文档管理制度
(一)建立健全设备软、硬件文档资料库,分门别类,严格登记造册。 (二)文档资料随系统变化应及时维护、修改、校对。
(三)文档资料的借用,要按相关规定登记,按期归还,妥善保管,不得丢失。 (四)文档资料由专人负责保管,存放在专用的资料室。 (五)各种报表资料格式统一,填写要规范、准确、及时。 (六)报表种类: 1、值班工作日志; 2、事件故障统计表; 3、问题统计表;
4、网络资源分配统计表; 5、设备巡检表 6、流量统计表 7、网络设备管理信息表 (七)文档资料种类:
1、操作使用手册; 2、技术维护手册; 3、常见故障处理手册; 4、网络拓扑结构图; 5、通信及网络配线资料; 7、资源分配管理资料; 8、客户需求与配置资料; 9、应急情况处置预案;
10、系统建设文档。包括:总体建设方案、施工图纸、线路路由、原始参数配置、随机资料、软件等。
安全保密制度
(一)公司网络管理及使用人员应严格遵守国家相关的计算机安全法规,国家安全法令和我院有关网络管理的规章制度。严禁在网上泄露国家机密;严禁散布颠覆国家、有损国家利益的反动言论;严禁在网上传播、查阅淫秽书刊、资料、色情类媒体信息;严禁在网上造谣诽谤、中伤国家、民族及个人的行为。
(二)不得与无关人员谈公司网络机密。包括运营管理、近期规划、发展战略等事项。 (三)未经上级或相关部门批准,无关人员不得进入机房;如已得到许可的,需由相关人员
陪同。
(四)未经许可,严禁在机房内拍照、录像。
故障管理
网络运维部故障分类
网络运维故障根据运维对象可分为物理和逻辑两个层面,根据故障对象将故障划
分为以下几类:
1、主机故障:主要分服务器硬件(处理器、内存、主板、硬盘、电源等服务器物
理配件),服务器软件(操作系统、应用软件等服务)。
2、网络设备故障:网络设备网络中的路由器和交换机。按照网络结构划分主要分
核心层网络设备、汇聚层网络设备、接入层网络设备。
3、网络故障:网络主要分机房网络故障和机房互联网络故障。机房网络主要指机
房内部网络路由、协议、及病毒引起的网络故障(例如:ARP欺骗)。机房互联网络故障主要指机房互联基础运营商(移动、联通、电信)网络故障,常见的比如互联骨干线路由于设备、路由、及协议引起的互联互通异常,
4、机房设施故障:机房设施故障主要包括机房电力、制冷、消防及自然灾害(雷击、
地震等)引起的故障,其中电力故障常见包括:供电、机房UPS、供电线路等制冷故障主要指精密空调系统故障引起机房温度过高造成服务器、网络设备宕机等故障。消防及自然灾害主要是指火宅、暴雨、雷击等不可控因素引起的故障。
5、人为因素故障:人为因素主要包括计划调整和人为操作。计划调整故障主要是
指有发布调整计划通告的计划性认为操作引起的故障。除了计划调整之外所有有关人为操作引起的故障就是人为操作故障,比如常见的DDOS、CC外部网络攻击及黑客入等造成故障和相关系统管理人员错误操作引起的故障。
6、其他故障:除了以上各种故障类别外的故障都统称其他故障。在故障描述时请
写清楚故障表现及原因和处理过程。
网络运维事件处理流程及故障分级通报流程。
网络运维在发现事件后,要对事件进行分析,同时判断是否为故障,分别采用下
面两个流程。事件判断是否为故障的依据就是事件发生的背后是否对业务运行造成中断影响。
事件分级主要是以事件处理的时限分分级标准。事件分两级,一般事件和重要事
件,能在半个小时由发现人独立处理的为一般事件,超过半个小时的为重要事件,需要通知部门负责人协调处理。
故障分三级:一般故障、严重故障、重大故障。在故障发现后要以恢复业务为首要
工作。严重故障要通知到部门负责人(部门经理),重大故障要通知到中心负责人(运维中心总监及总经理)。
事件是故障表现,同一个故障可能引发多个事件。在判断事件具体情况的时候一
定要谨慎分析。
网络故障分级标准
网络运维故障类别分级标准 故障 分类 主机 故障 故障 升级 主机 负载 主机 30分钟 60分钟 一般故障 严重故障 重大故障 核心业务承载主机 网络丢包/中断 一般业务承载主机 关键业务承载主机 网络丢包/中断 网络丢包/中断