QB-Y-XXX-2014
对新引入的数据源,需建立起新数据源质量稽核体系,主要包括以下内容:
? 数据质量的常规检查。复用前期建设的数据质量稽核模块,根据新数据源数据
的特点,对检查方法和检查内容进行补充和调整;
? 新的数据稽核方法引入。一方面,由于新数据源数据送到经营分析系统前采用
了很多新技术,需要采用新的方法衡量新数据源的数据质量。“数据比对”稽核方法就是将BOSS、VGOP等数据作为基础,与新数据源数据进行抽样比对,实现对新数据源数据的稽核;另一方面,面对大量的新数据源数据,借鉴产品质量检验的方法,对数据进行抽检,以提高效率;
? 公共规则库的建设与管理。由数据提供者和数据使用者双方建立共同认可的公
共判定规则库,实现数据源质量稽核,形成数据源质量管理的新机制; ? 新数据源质量问题报告与处理。新数据源的数据引入,涉及到与新数据源系统
的交互,建立定期的通报机制、问题处理机制与流程管理,促进新数据源质量的不断提高。
5.2.3.3. 应用场景
经营分析系统运维人员或源系统管理员发起对DPI相关数据的数据质量稽核规则的申请,经过经分侧和网络侧相关人员的审核,发布成为双方公共调用的DPI数据质量稽核规则。公共规则发布过程示意如图5-10所示。
新数据源系统运维人员经分规则申请系统运维人员参与审核共同审核参与审核审核通过规则发布?文件级检查公共规则库?记录级和字段内容检查?比对检查?抽样检查
图5-10公共规则发布过程示意
主要规则包括:
? 文件级校验:文件到达时间、数据量校验(文件大小和记录条数)、文件名校验; ? 记录级和字段内容校验:字段的合法性校验(字段类型和长度、空值、数字和字符
24
QB-Y-XXX-2014
值域、URL表达式),Gn口数据记录级校验规则示意如图5-11所示;
? 比对稽核:抽取Gn信令数据中飞信业务的用户号码,与经营分析系统中飞信业务
的用户号码进行比对检查。
? 抽样方法:抽取每日11点-12点,或者每月15日的数据进行上述检查。
属性编码12345678属性名称DEAL_TIMEIMEIMSISDNUSER_AGENTCELL_IDLAC_IDURLUPLINKTRAFFIC属性描述访问时间终端类型用户手机号码UA小区编码LAC区编码URL上行流量类型DATETIMEVARCHAR2(255)VARCHAR2(24)VARCHAR2(255)CHAR(10)CHAR(10)VARCHAR2(255)NUMBER(10)是是是是是是否关键字段是备注?URL表达式不合法本周期上行流量字节数本周期下行流量字节数值为80的时候代表URL910DOWNLINKTRAFFICBEARPROTOCOL_TYPE下行流量应用协议类型NUMBER(10)CHAR(2)?字段类型不合法?字段长度不合法?空值?数字值域违法?字符值域违法 图5-11Gn口数据记录级校验规则示意
系统自动运行核查规则,经分侧和网络侧根据情况共同设置告警阈值,例如设置DPI解析Gn口数据用户手机号码空值率不超过30%。数据质量稽核出现告警,则生成问题报告和明细数据,触发处理流程。 5.2.4. 关键维度一致性监控 5.2.4.1. 应用背景
目前经营分析系统的数据来源于BOSS、CRM等系统,源系统的关键维度发生变化时,
通常无法及时通知经营分析系统,导致数据汇总处理过程失败,造成指标出数过程延误或者指标数据不准确等问题。
通过建设关键维度变更监控应用,及时发现因维度变化影响的指标,及时预防因维度变更造成的数据质量异常。通过设置维度变更影响的指标,提醒业务人员关注维度变化对指标数据的影响。 5.2.4.2. 目标与方案
由被动发现接口维度变化,向主动发现维度变化转变,及时通知相关人员处理,从维度
25
QB-Y-XXX-2014
变更的源头发现问题,提前知晓并避免因维度变化导致的问题蔓延。通过维度与指标关系分析和设置,及时通知指标使用者注意维度变化导致的指标数据变化。
? 关键维度影响设置
分析维度信息与指标的关联关系。基于元数据血统图或影响图分析维度影响的指标,根据分析的结果结合管理员的经验,设置维度与指标的关联关系。 ? 关键维度变更监控
监控数据源接口维度表内容,将维度信息与历史记录进行对比,如果维度信息出现变化,及时通知相关人员处理:
? 通知源系统相关管理员,核对接口的维度变更情况:
? 如果维度变更信息错误,更正维度信息并重传维度信息; ? 如果维度变更属于正常需求,及时联系经营分析系统管理员处理; ? 通知经营分析系统相关管理员,告知维表的变更信息。管理员评估维度变更对
经营分析系统的影响,依据源系统的变更反馈信息做相应处理。
? 关键指标出数维度的检查
监控维度变更情况,如果维度信息变更,根据其与指标的关联关系,实时或者定时通知相关人员处理:
? 通知经营分析系统数据质量管理员,评估维度信息变更对指标数据的影响,及
时进行相关处理;
? 通知指标相关用户(指标提出人、指标负责人等),注意维度变更可能会影响
的指标信息。
5.2.4.3. 应用场景
某日BOSS系统的TD信息发生了变化,添加了“HTC ONE终端”,但该终端维表的变
化没有及时通知经营分析系统。经营分析系统通过BOSS接口获取到TD终端维度信息入库,关键维度变更监控功能自动与历史维度比对,发现了TD终端维度信息的变化,生成维度变化告警。通过短信或者邮件通知BOSS源系统管理员,确认维度的变化是否属于正常业务变化。同时通知经营分析系统管理员TD终端维度信息发生变化,经营分析系统管理员与源系统管理员联系确认维度变化是否正常,检查TD终端信息数据获取、数据汇总过程,避免因维度变化引起的数据汇总错误,影响终端收入类指标的数据缺失。业务人员查看指标报表时,获得维度的变化对指标的影响信息。关键维度一致性监控应用场景如图5-12所示。
26
QB-Y-XXX-2014
图5-12关键维度一致性监控应用场景
5.2.5. 数据质量计分卡 5.2.5.1. 应用背景
通过设定应用层、汇总层和接口层等各层及数据质量各属性的权重,构建量化评估体系,
分析历史的数据质量告警和问题处理结果,根据权重计算出各层数据质量的分数,量化展现经营分析系统各层次数据质量情况以发现薄弱环节,将薄弱环节质量提升作为质量管理工作的重点,提高数据质量宏观管控能力和管理效率。 5.2.5.2. 目标与方案
? 建设目标:
结合经营分析系统数据质量管理子系统的事前和事中监控,加强数据质量告警事后评估,通过计分卡机制,量化体现经营分析系统数据质量的整体情况,提供告警问题处理率等分析,找出经营分析系统数据质量的薄弱环节,使得数据质量管理工作有的放矢,提升经营分析系统质量管控能力,形成闭环的数据质量管理流程。
? 建设方案:
通过设置数据源接口层、ETL作业层、汇总层和其他各层权重和数据质量属性权重,构建数据质量量化评分体系,形成数据质量的量化标准。通过定期评分和分层分级展示,找出关键的数据质量问题并重点解决,强化数据质量提升的效果。通过数据质量问题处理率等分析功能,分析告警的处理情况,考核和监督数据质量管理员的工作成效,提升运维效果。 5.2.5.3. 应用场景
某省数据质量管理员每月运行评分功能,对经营分析系统数据质量进行量化评分,得出
27
QB-Y-XXX-2014
数据质量整体得分为80分,发现其中ETL作业层分数为60分,是经营分析系统数据质量的薄弱环节。作为参考,管理层决定将ETL作业层质量的提升作为下一阶段重点工作。并通知ETL作业层管理员制定提升工作计划并执行。
经过ETL作业工作整改,再次运行数据质量计分卡功能,对经营分析系统数据质量进行量化评分,得出数据质量整体得分为85分,其中ETL作业层分数提高到70分,显著的看到质量提升的效果。并发现新的薄弱环节作为下一阶段的重点工作,有针对性的逐步提升经营分析系统数据质量,形成数据质量闭环的管理流程。数据质量计分卡应用场景如图5-13所示。
从经分系统各层设置监控点监控并进行处理按照层次和质量属性设置评分权重得到系统的计分卡和分析 图5-13数据质量计分卡应用场景
5.2.6. 数据质量图形化运维
本节介绍基于图形化的指标平衡监控、强关联指标监控、指标全景监控和指标出数实时运行情况监控,改变以往数据质量管理菜单化、表格化的操作方式,提高系统易用性,提升数据质量管理水平。 5.2.6.1. 应用背景
当前KPI指标监控主要有五个地方使用不便: 1) 监控配置易用性差
经营分析系统运维人员需要在元数据列表中找到KPI指标,并参考元数据血统图,找到其他关联节点,进行规则配置,配置过程费时费力。 2) KPI指标的出数过程没有跟踪,业务人员无法了解当前进度
KPI指标的出数过程没有自动跟踪,业务人员无法了解当前处理进度,导致业务人员需要人工向运维人员咨询,沟通繁复。 3) KPI告警结果展现偏技术化
28