QB-Y-XXX-2014
质量报告、数据质量知识库和数据质量对外服务等功能构成的数据质量管理子系统。
本期规范旨在提升数据质量管理子系统的易用性和协作性,降低技术门槛。通过开放式个人KPI监控和数据质量满意度反馈,使得更多业务人员可以更容易的参与数据质量监控,实现全员数据质量监控;扩展经分数据质量管理的范畴,实现对Hadoop结构化数据的数据质量稽核。 4.2. 建设目标
数据质量管理子系统的建设为数据质量管理工作提供强有力的系统支撑。本期规范建设目标是:
? 为了激励市场部等业务人员和地市运维人员等全员参与数据质量管理,本期通过开
放式个人KPI监控减低技术门槛,提升易用性,使得更多人员能够参与到数据质量管理子系统的日常应用中,共同提升经营分析系统的数据质量;
? 本期通过数据质量满意度反馈应用,让业务人员主动参与到数据质量工作中,将数
据质量意见及时反馈到数据质量管理子系统,形成闭环的数据质量管理流程; ? 建设Hadoop结构化数据稽核功能,提供采集Hadoop结构化数据的能力,并对
Hadoop数据进行抽样稽核,初步建立对Hadoop结构化数据的数据质量管理能力,拓展数据质量管理子系统的应用范围。
4.3. 系统架构
本章从功能结构和技术结构两方面说明了数据质量管理子系统的体系结构,在功能结构一节简要说明了各个层次的功能,在技术结构一节说明了各个组件的实现方式以及数据质量管理子系统与经营分析系统其它模块的关系。
4.3.1. 功能架构
数据质量管理子系统的功能结构包括获取层、存储层、功能层、应用层四部分,如图4-1所示:
9
QB-Y-XXX-2014
图4-1数据质量管理子系统功能结构图
下面简要描述各层要求实现的功能: ? 获取层
获取层主要实现数据质量数据的采集功能。数据质量采集模块负责采集所需的源系统和经营分析系统监控数据,它是数据质量管理功能和应用的基础。采集的数据范围包括接口信息、基础编码信息、经营分析系统数据处理过程信息、Hadoop Hive数据采集和业务指标数据等。
? 存储层
存储层主要包括三个部分:
? 数据质量规则库:存储数据质量管理子系统的相关规则信息,包括数据质量采集规
则、监控规则、告警规则及两级数据质量联动审计规则等;
? 数据质量信息库:存储数据质量所有的告警信息、质量评估信息和问题处理流程信
息等;监控数据:包括指标监控、接口监控、作业监控等实时监控的历史信息,通过历史信息进行数据分析相关功能;
? 数据质量知识库:存储数据质量监控知识、数据质量评估知识和数据质量问题及其
处理方法知识,包括接口问题处理知识、ETL问题处理知识、仓库处理过程问题处理知识和指标异常及处理知识等。 ? 功能层
功能层包含了数据质量管理子系统的基础功能,它为数据质量管理的前端应用提供功能
10
QB-Y-XXX-2014
支撑,主要包括以下功能:
? 规则配置管理:规则配置管理实现基于动态规则配置的监控稽核功能,建立数据质
量监控规则库,实现监控稽核规则的可配置可管理。规则配置管理包括规则设置、规则维护、规则调度及规则优化等功能;
? 数据质量监控:数据质量监控是根据配置的规则或算法,对采集的数据进行数据质
量监控,对发现的数据质量异常情况进行告警的过程,包括源接口关键数据稽核、实体数据检查、处理过程检查、关键指标检查、分层分级告警管理等功能; ? 数据质量问题处理:数据质量问题处理是按照问题处理流程对系统监控所发现的问
题以及手工提交的问题进行处理的过程,包括问题生成、问题分析、问题处理(包括流转)和问题总结;
? 数据质量评估:数据质量评估包括源接口基础数据质量评估、基础编码评估和经营
分析系统指标关联性分析。源接口基础数据质量评估是根据评估指标和评估方法,对源接口基础数据的数据质量进行评价;基础编码评估是对经营分析系统的基础编码的一致性和有效性等进行评估;经营分析系统指标关联性分析通过对指标进行关联性检查发现潜在的数据质量问题,相关的评估结果作为系统质量改进的参考和依据;
? 数据质量报告:数据质量报告是对数据质量管理各环节累积的各种信息进行汇总、
梳理、统计和分析,形成统计报告的过程,基本功能主要包括:报告生成、报告发布、报告查询和报告归档;
? 数据质量对外服务:数据质量对外服务负责数据质量管理子系统与经营分析系统其
他模块及外部系统进行数据质量信息交互;
? 开放式个人KPI监控:减低数据质量管理子系统配置业务规则和结果展示的技术
门槛,提升易用性,激励更多人员参与到数据质量管理中来,实现全员数据质量管理。
? 数据质量满意度反馈:通过建设数据质量满意度反馈功能,让业务人员对数据质量
进行反馈,提升数据质量管理水平,形成闭环的数据质量管理流程。
? Hadoop结构化数据稽核:增强原有数据质量稽核功能,获取层采集Hadoop结构
化数据,并对其进行抽样的数据质量稽核。
? 新数据源质量稽核:建立与源数据系统共享的公共规则库,采用常规检查和数据比
对等数据抽样检查方法,对新数据源的数据质量进行稽核,从源头解决数据质量问
11
QB-Y-XXX-2014
题,提升经营分析系统网络数据和财务数据等新数据源的数据质量;
? 关键维度一致性监控:提供维度内容和数据结构变化监控,从源头上发现维度变更
问题,提交数据源系统进行确认和处理。通过关键维度影响分析功能,通知指标使用者注意指标数据的变化;
? 数据质量计分卡:基于现有的数据质量监控和告警处理功能,按照经营分析系统的
层次结构和数据质量属性维度配置计分权重,评估各个层次对象数据质量规则的达标程度,得出经营分析系统数据质量分数,量化展现系统的数据质量情况;同时建设数据质量问题处理率分析功能,提升系统运维能力;
? 数据质量图形化运维:基于元数据血统图、出数路线图和指标运算关系图,实现图
形化的指标全景监控、指标出数实时情况监控和指标运算关系监控,实现数据质量监控图形化管理,提高系统易用性;
? 数据质量两级联动:数据质量两级联动实现省级经营分析系统和一级经营分析系统
数据质量信息的两级联动,打通从省级经营分析系统到一级经营分析系统端到端的数据质量管理链路,支持一经接口数据及时性和准确性问题审计,提升省级经营分析系统对一经接口数据质量保障能力和一级经营分析系统对全网业务数据监管能力。数据质量联动包括联动链路获取、联动审计和联动异常处理等功能; ? 急报快报:让业务人员能够及时的获取指标波动信息,并且能够直接在经营分析系
统前端订阅业务人员关注的指标,并获取订阅指标的异常信息。
? 指标波动阈值挖掘分析:实现对KPI指标波动范围的挖掘分析,帮助提升KPI指
标监控规则设置的准确性,减少人为因素干扰;
? 接口数据内容检查:提供接口数据字段内容检查功能,监控接口数据内容的质量问
题,获取存在质量问题的数据集,提供给数据源系统进行根治处理;
? 中断式监控预警:通过经营分析作业调度模块与数据质量管理子系统的交互,当上
游作业发生数据质量问题时,能够及时停止后续作业的运行,避免错误数据影响扩大。 ? 应用层
应用层在数据质量管理子系统功能层的支持下为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括开放式个人KPI监控、数据质量满意度反馈、新数据源质量稽核、关键维度一致性监控、数据质量计分卡、数据质量图形化运维、数据质量两级联动管理、KPI急报快报、指标波动阈值预测、接口数据内容检查、中断式监控预警和数据质量知
12
QB-Y-XXX-2014
识应用等。
4.3.2. 技术架构
数据质量管理子系统的技术结构包括获取层、存储层、功能层、应用层等四部分,如
图4-2所示。
图4-2数据质量管理子系统技术结构图
? 获取层
数据质量采集模块由数据质量采集代理(Agent)和采集服务端(Server)组成,共同完成
13