XXXIT运维监控管理平台建设方案(参考)(6)

2018-11-19 20:14

IT系统监控管理平台项目——技术方案（运维综合监控管理）

率、出入丢包率、出入错包率、出入速率、广播包率、组播包率等指标。可对不同的网络节点根据影响程度不同设置不同的轮训时间。系统能够对某一网段、IP地址等限定条件进行拓扑发现，并且可以设定更新周期，自动排列生成网元设备图及网元设备之间的连线。 (2) Web网络拓扑管理

支持网络节点的二层、三层和基于协议的三种视图的自动发现，自动生成不同图标，生成整个网络的拓扑结构图及各个节点的工作状态信息，网络节点状态可以不同颜色区别。对于自动发现的网络设备和不同平台的主机以不同的图标显示出来，便于直观的观察和监控。对于无法自动识别生产厂家及产品类型的网络和主机设备，提供手工方式加以定义。

对于不能监视的设备能够通过SNMP代理方式进行管理，支持加载其MIB的方式对其进行监视。

拓扑图能够显示设备、线路的类型，线路及设备的通断情况。故障设备和线路能够清楚地在拓扑图上显示。

可自动刷新网络拓扑结构图，当网络中网络设备数量发生变化时，能够自动添加或删除对应图标；并动态监控网络设备的状态。

在拓扑图中，对每个管理对象，可提供详细的管理属性内容与当前告警与性能信息。对同一个管理对象，在不同的拓扑视图中，保持相同的状态。 (3) 网络拓扑链路流量监控

基于自动生成的网络拓扑图，根据网络带宽利用率（单位时间流量/带宽*100%）不断地修改连接符号的填充百分比，使连接符号以不同粗细代表和数字标注方式显示当前时刻的流量情况，使用户对网络链路流量的了解变得更为方便和直观。当用户点击选中某连接符号后，可以显示该条链路的详细流量情况。包括：

IT系统监控管理平台项目——技术方案（运维综合监控管理）

1) 在拓扑图的线上（链路）可以标注对应的入带宽利用率、出带宽利用率、出

流量、出流速、入流量、入流速、总流量、总流速等内容；

2) 在拓扑图的线上，以线条粗细直观显示链路的流量大小，以线条的颜色直观

显示链路的告警状态等；

3) 流量阀值或者带宽利用率阀值设置，进行不断闪烁，生成阀值告警消息。 (4) 网络设备接口面板管理

按照设备的实际接口情况，以模拟设备面板的方式，直观展现各个接口的状态，并可向下关联挖掘到所连主机情况。 (5) 网络设备树图与单点网元管理

按日常维护习惯或指定的方式进行导航/查询，如按职能部门、按地理区域、按设备厂商、按设备类型等组织数据导航树。

并针对每个节点查看其配置、告警、流量、性能等相应内容提供一站式的综合监控管理，包括本台设备的基本配置、当前时刻主要性能指标、最近一天主要性能运行趋势、设备各个接口的状态与流量、设备实时与历史告警信息等。 (6) 网络性能管理

系统能够周期性地自动采集性能数据，采集周期和采集时间可按照一天内的采集时间，和每周内的采集天数进行配置，最小的数据采集时间周期为1分钟，默认时间是5分钟。数据采集可安装不同的厂商，不同的地理位置，不同的职能部门进行批量的停止和启动。

对用户所关心的主干链路流量，可生成流量、流速、包数、会话数变化曲线表，并通过设定阀值产生告警消息。按照应用流量、端到端流量、主机流量、目标流量进行统计，生成日、周、月统计报告等。

IT系统监控管理平台项目——技术方案（运维综合监控管理）

(7) 网络故障监控

网络故障监控，分为定时轮询和接收Trap两种方式。系统提供友好界面对各类不同对象，不同方式的告警进行不同的分组、描述已经不同告警级别的定制。 1) 定时轮询

设置相应的时间对网络设备进行轮询监控。对不同的网络设备可以指定不同的轮询时间间隔。定时轮询能够通过ping方式看设备是否可达，通过SNMP去检索网络设备相关指标，形成各种报表数据。同时还可对不同采集指标进行阈值比对，当超过阈值后就会产生报警信息，转发到邮箱中或在上层界面呈现。 2) trap事件接收

对于客户关注的设备接口通断，链路通断可采用Trap方式进行故障事件的发送和接收，此方式大大的提高了告警的实时性，在日常运维工作中广泛使用，将设备接口状态的告警控制在10秒钟之内。

3.3.3 服务器监控管理

(1) 服务器单点综合监控

在一个界面中，综合展现某台具体服务器的配置、性能、历史数据和故障信息。服务器性能重点显示包括实时和最近24小时 CPU平均利用率、MEM利用率、文件系统利用率。 (2) 服务器性能管理

实现对主机性能、故障、进程、磁盘、文件系统、日志的监控，并生成报表和告警信息，主要的性能管理内容包括：服务器CPU性能（5分钟、小时、日、周）服务器内存性能（5分钟、小时、日、周）

IT系统监控管理平台项目——技术方案（运维综合监控管理）

服务器磁盘性能（日、周）

服务器流量性能（5分钟、小时、日、周）服务器CPU峰值分析 CPU峰值分析（小时/日）磁盘I/O繁忙分析

服务器I/O性能统计（小时/日） (3) 服务器接口流量管理

提供服务器小时、日、周、月流量趋势分析，并提供流量阀值告警，当服务器接口流量达到阀值时，产生相应阀值级别的告警事件。 (4) 服务器进程管理

包括对服务器各进程性能的TOPN排名和进程性能趋势分析。包括进程占用cpu利用率、占用cpu的时间、驻留内存和虚拟内存的大小。 (5) 服务器监控管理主要指标服务器监控管理的主要指标包括：

1) 基本信息：主机名称、操作系统名称、操作系统版本、操作系统位数、

机器开机运行时间等基本信息；

2) 性能：CPU利用率，内存利用率，文件系统利用率，磁盘IO，硬盘读

写速率、虚拟内存使用率、网卡使用率、内存页交互速率等； 3) 进程：可对指定进程资源占用情况进行采集。可按应用监控多个进程的

汇总的CPU、内存利用率。默认可对每个主机top10进程进行记录。可监控进程、服务是否正常运行，进程数量是否发生变化；异常将产生告

IT系统监控管理平台项目——技术方案（运维综合监控管理）

警信息；

4) 日志：实现日志关键字、日志文件大小、日志文件是否丢失等指标的监

控，异常将产生告警信息；

5) 配置变更：当主机的硬盘、CPU、内存等信息发生变化时，系统会产生

告警，发给指定的管理员；

6) 特定文件：监控系统中文件和目录的相关属性，包括名称、文件大小、

拥有者、访问权限以及链接等。如发现文件被修改或其他异常时（包括非法访问、大小异常等）产生报警；

7) 用户：监测与用户有特定关联的信息，主要包括用户名、用户ID、登录

时间、登录终端IP信息等；

8) 服务器网络接口监控：监控服务器网络端口的输入、输出、错包及各种

可用统计参数，端口是否被停用或者删除等； 9) 交换空间：交换空间的大小、交换空间使用率等；

10) 热备系统：获得服务地址，获得接管地址、Cluster节点状态、Network

端口状态；

11) IPC：共享内存、信号灯、消息队列；

12) 目录：指定目录的大小、修改时间及包含文件个数；

13) 活动目录：对活动目录帐号(windows)进行模拟登陆、验证帐户和密码是

否有效；

14) UNIX SCRIPT：监控指定的脚本的运行情况，支持结果匹配。

XXXIT运维监控管理平台建设方案(参考)(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

下一篇：四川省乐山市2018届高三第一次调研考试文综地理试题含解析