QB-Y-XXX-2014
监控结果主要以数据列表方式展现,过程监控无法体现,不易理解。 4) 缺少对存在运算关系的KPI指标间的核对机制
KPI指标间存在运算关系,系统没有从业务角度管理指标间的运算关系,KPI出数时没有核查运算关系,指标关系检查效果差。 5) 强关联指标间缺乏关联监控
指标之间存在关联关系,尤其是有运算关系的指标有强关联关系,一旦其中某一指标发生波动,就有可能产生放大效应影响其他指标造成告警,而目前主要是关注告警指标本身的波动,其相关联的指标却被忽略了。 5.2.6.2. 目标与方案
? 建设目标
基于元数据血统图和出数路线图,实现图形化的指标监控配置、出数过程跟踪及告警展现分析,提供图形化运维管理,帮助运维人员快速完成指标过程监控和问题处理过程,协助业务人员动态了解指标出数进度,提高工作效率,节省成本。
基于元数据指标运算关系图,实现图形化的指标运算核查、监控配置及告警展示分析,提供图形化的指标运算关系管理,自动进行交叉检验和关联告警,帮助运维人员快速完成平衡问题核查与判断,协助业务人员对关注的关联指标进行告警。 ? 建设方案
建设数据质量图形化运维功能,包括元数据图形接口、监控设置图、指标平衡监控告警图、强关联指标告警图、指标出数实时运行图及指标全景监控图等,实现指标监控全部图形化。
5.2.6.3. 应用场景
5.2.6.3.1. 数据质量图形化运维典型场景
图形化运维包括基于元数据血统图的指标监控设置、基于指标出数过程运行图的指标出数生产过程跟踪及基于元数据血统图指标告警展示和处理三部分,应用场景如图5-14所示。
29
QB-Y-XXX-2014
指标监控设置指标出数过程跟踪节点上右键可直接进行监控配置指标告警展示及处理经分系统运维人员 图5-14指标图形化监控应用场景示意
场景说明如下:
近期某省推广了一项新数据业务套餐。业务人员想了解一下实际的市场效果,要求经营分析系统运维人员对GRPS流量和GRPS套餐收入进行监控。
经营分析系统运维人员进入数据质量管理子系统,进入图形化监控设置界面,选择GRPS流量指标,系统自动调用元数据血统信息并展现链路。经营分析系统运维人员选择一个过程节点,右键点击“监控设置”快速完成此指标一个过程点配置,然后选择其他过程点并完成过程配置过程。经营分析系统运维人员再次选择GRPS套餐收入指标并完成类似监控配置。
经营分析系统运维人员选择GRPS流量和GRPS套餐收入指标,跟踪指标出数过程,系统自动调用元数据指标出数过程图并展现相关信息。经营分析系统汇总过程结束后,经营分析系统运维人员选择GRPS流量和GRPS套餐收入指标,查看指标告警状态,系统自动展现告警全景图,动态展现指标告警状态及指标值等信息,经营分析系统运维人员或业务人员点击相关节点,查看详细信息并做进一步的处理。 5.2.6.3.2. 指标平衡监控应用场景
指标平衡监控,包括基于指标运算关系图的指标平衡监控设置、强关联指标信息跟踪及指标平衡监控告警图展示和处理三部分,示意如图5-15指标平衡监控示意所示。
60%=65% ??飞信业务渗透率:65%/=飞信业务使用用户数:60万通信用户数:100万 30
图5-15指标平衡监控示意
QB-Y-XXX-2014
场景说明如下:
近期某省下发了KPI考核指标“飞信业务渗透率”,业务人员希望能确认相关指标的数据,以确保报表数据的严密性,要求经营分析系统运维人员将指标“飞信业务渗透率”相关的指标运算关系纳入指标数据平衡监控范围。
经营分析系统运维人员进入数据质量管理子系统,进入指标平衡监控设置界面,选择飞信相关指标,系统自动调用元数据指标运算关系信息并展现图形。经营分析系统运维人员选择核查时间频率。
经营分析系统运维人员选“飞信业务渗透率”,跟踪相关指标信息,系统自动调用元数据指标运算关系图并展现相关信息。经营分析系统汇总结束后,经营分析系统运维人员选择“飞信业务渗透率”指标,查看指标平衡告警状态,系统自动展现指标告警运算关系图,根据设置的时间频率动态展现指标告警状态及指标值等信息。经营分析系统运维人员或业务人员点击相关节点,查看详细信息并做进一步的处理。 5.2.6.3.3. 强关联指标告警应用场景
强关联指标告警,包括基于指标运算关系图的强关联指标告警设置、强关联指标信息跟踪、基于指标运算关系图波动指标告警及强关联指标告警展示和处理三部分,示意如图5-16强关联指标告警示意所示。
下降13%下降3%上升15%
图5-16强关联指标告警示意
场景说明如下:
近期某省下发了KPI考核指标“飞信业务使用用户数”,业务人员希望跟踪该指标及其强关联指标的数据波动,以确保KPI的完成,要求经营分析系统运维人员将指标“飞信业务使用用户数”及其强相关的所有指标纳入监控范围。
经营分析系统运维人员进入数据质量管理子系统,进入强关联指标告警设置界面,选择飞信相关指标,系统自动调用指标运算关系信息并展现图形。经营分析系统运维人员选择多个合适的运算关系和图形,为每个节点指标进行监控设置,并设置时间频率。同时,根据强关联指标的关键程度或业务人员的关注度,选定关注指标。
31
QB-Y-XXX-2014
经营分析系统运维人员选“飞信业务使用用户数”,跟踪相关指标信息,系统自动调用元数据指标运算关系图并展现相关信息。经营分析系统汇总结束后,如果运算关系中某一指标告警,系统自动告警关注指标。经营分析系统运维人员选择主指标“飞信业务使用用户数”,查看指标告警状态,发现“飞信业务使用用户数”出现突降。系统展现强关联指标告警图和强关联指标的告警状态及指标值等信息。运维人员点击相关节点,查看详细信息并进行分析:
? “飞信业务使用用户数”的相关上游指标“飞信业务沉默用户数”出现突增; ? 受“飞信业务使用用户数”指标突降影响,“飞信业务渗透率”也出现下降; 运维人员根据以上两点信息,判断问题原因是由“飞信业务沉默用户数”突增引起,进一步分析该指标突增的原因并做处理。 5.2.7. KPI急报快报 5.2.7.1. 应用背景
业务人员(一线员工、支撑人员、决策人员等)无法及时获取数据异常信息,问题发现滞后。目前数据质量监控都是针对报表指标的监控,当监控到问题发生时候,问题已经发生,并且造成影响。
5.2.7.2. KPI急报快报定义
? KPI急报
通过在装载、转换、汇总等数据处理阶段设置监控规则,进行数据波动的稽核,发生数据质量波动异常的,把告警信息通知到信息订阅人员,以解决问题。问题处理之后,通过相关的信息发布机制,让信息订阅人员及时知道数据已经恢复正常。没有异常的直接通过短信发布数据信息。KPI急报通常比较适合数据质量运维人员订阅,可以提前发现问题。
? KPI快报
通过增加指标监控频次,并进行数据波动对比,从而提前告警问题的发生。通过不同的方式(短信、邮件等),把告警信息通知到支撑人员,让问题尽快得到处理。问题处理之后,通过相关的信息发布机制,让业务人员、支撑人员及时知道数据已经恢复正常。没有异常的直接发布数据信息。
KPI急报快报波动稽核,建议采用同比、环比的方式进行波动的判断。也可以针对指标本身情况采用其它波动稽核方式。例如采用固定值进行对比。KPI急报快报过程如图5-17所示:
32
QB-Y-XXX-2014
时间时间点N时间点3接口接入清洗转化汇总指标出数过程时间点2急报快报图5-17 KPI急报快报示意图
时间点1
KPI急报体现在指标出数过程中,以期在出数完成前更早地发现问题;KPI快报体现在增加指标监控频次上,缩短发现问题的时间间隔。 5.2.7.3. 目标与方案
由被动发现问题,向主动发现问题,并及时发布问题,让数据质量运维透明化。对于数据质量管理子系统的建设,改变以往以技术规划作为需求,转化为以业务需要作为需求出发,进行系统建设。数据质量管理子系统将提供KPI急报快报的应用,通过这些应用来解决经营分析系统数据质量管理子系统面对的问题。
1) 通过指标急报的形式,运维人员能够订阅自己关注的指标,一旦发生数据波动或者
数据未出数,运维人员能够及时收到指标急报信息。通过急报,运维人员能够了解数据质量的当前情况,另外在问题解决之后,运维人员能够收到相应的通知。以便业务人员能够及时使用指标数据;
2) 通过指标快报的形式,经营分析系统业务人员、经营分析系统运维人员能够订阅自
己关注的相关业务指标。一旦异常波动发生,数据问题将第一时间通知到订阅指标人员手中,从而尽快查找指标异常或者波动的原因,并发布相关的处理结果信息。 整个KPI急报快报业务过程如图5-18所示:
图5-18KPI急报快报应用过程
? 指标监控订阅:主要使用对象为运维人员、业务人员,对自己关注的指标进行订阅,
33