中国移动省级NG2-BASS(v5.0)技术规范数据质量管理子系统分册(5)

2019-03-03 10:36

QB-Y-XXX-2014

质量信息的采集方式配置、采集执行、数据格式转换等功能。质量信息的范围包括源系统接口文件、指标数据以及经营分析系统的各种库表、程序运行、指标等数据和Hadoop结构化数据。采集到的数据存储在数据质量存储库中,并作为监控检查的输入。

? 存储层

存储层采用关系数据库方式存储各种质量信息,主要包括数据质量规则、数据质量信息和数据质量知识等。数据加载的方式根据实际应用可采用增量或全量加载的方式。存储库根据数据的不同类型采用不同的存储周期,质量规则和质量知识采用长期在线存储,质量信息采用短期在线存储和定期备份压缩存储。

? 功能层

功能层包括规则配置管理、数据质量监控、数据质量问题处理、数据质量评估、数据质量报告、开放式个人KPI监控、数据质量满意度反馈、Hadoop结构化数据稽核、新数据源质量稽核、关键维度一致性监控、数据质量图形化运维以及数据质量两级联动等模块。相关功能通过数据质量控制台的相关调度引擎进行协同工作,并与其他模块有如下交互:

? 与存储层进行各种质量信息的交互;

? 与元数据管理模块通过REST服务接口进行交互; ? 支撑应用层的相关应用;

? 能够提供对外服务,让其它系统集成数据质量管理子系统的相关功能。 ? 应用层

应用层基于功能层为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括开放式个人KPI监控、数据质量满意度反馈、新数据源质量稽核、关键维度一致性监控、数据质量图形化运维、数据质量两级联动管理等。应用层通过Portlet/iFrame等方式向经营分析系统门户提供各种质量信息。

5. 业务问题

5.1. 数据质量问题域

数据质量问题是数据质量管理的核心。本节对经营分析系统数据质量问题进行了概述,并对本规范覆盖的范围进行了说明。数据质量问题按照来源和具体原因,可以分为信息、技术、流程和管理四个问题域,如图5-1所示。

14

QB-Y-XXX-2014

图5-1数据质量的四个问题域

5.1.1. 信息问题域

信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题,如图5-2所示。

图5-2信息问题域

产生这类数据质量问题的主要原因包括:元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。

数据度量主要包括完整性、唯一性、一致性、准确性和合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。

信息类问题中易引起描述及理解错误的元数据主要包括:

? 业务元数据——主要包括业务术语、信息分类、指标定义(指标口径)、业务规则

等信息;

? 技术元数据——主要包括对数据结构、数据处理方面的特征描述,覆盖经营分析系

统数据源接口、数据仓库、ETL、OLAP、数据挖掘、前端展现等全部数据处理环

15

QB-Y-XXX-2014

节。

5.1.2. 技术问题域

技术类问题是指由于具体数据处理的各技术环节异常而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷,如图5-3所示。

图5-3技术问题域

技术类数据质量问题主要产生在数据创建、数据获取、数据传递、数据装载、数据使用和数据维护等环节,具体描述如下:

? 数据创建质量问题主要包括:业务系统话单延迟入库、创建数据默认值不当和数据

录入的校验规则不当,导致指标统计结果不一致、数据无效和记录重复等; ? 数据获取质量问题主要包括:采集点不正确、取数时间点不正确以及接口数据在获

取过程中失真,例如编码转换处理错误或精度不够,导致指标统计结果不一致或数据无效等;

? 数据传递质量问题主要包括:接口数据及时率低、接口数据漏传和网络传输过程不

可靠,例如包丢失、文件传输方式错误、传输技术问题和协议使用不当导致的数据不完整等;

? 数据装载质量问题主要包括:数据清洗算法、数据转换算法、数据加载算法的错误

和调度机制不合理等;

16

QB-Y-XXX-2014

? 数据使用质量问题主要包括:展示工具使用错误、展示方式不合理和展示周期不合

理等;

? 数据维护质量问题主要包括:数据备份/恢复错误、数据的存储能力有限、维护过

程缺乏验证机制和人为后台调整数据等。

5.1.3. 流程问题域

流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,如图5-4所示。

图5-4流程问题域

流程类问题主要来源于经营分析系统的数据创建流程、数据传递流程、数据装载流程、数据使用流程、数据维护流程和稽核流程等各环节,具体描述如下:

? 数据创建流程质量问题主要指操作员数据录入时缺乏审核流程; ? 数据传递流程质量问题主要指通信流程沟通不畅;

? 数据装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载

流程逻辑错误及数据转换流程逻辑错误;

? 数据使用流程质量问题主要指数据使用流程缺乏流程管理;

? 数据维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数

据测试流程以及对人工后台调整数据没有严格的流程监控; ? 稽核流程质量问题主要指缺乏数据检查及问题反馈流程。 5.1.4. 管理问题域

管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如图5-5所

17

QB-Y-XXX-2014

示。

图5-5管理问题域

管理类问题主要包括人员的管理、培训和激励等方面的措施不当导致的管理缺失。人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;人员管理所产生的质量问题主要指缺乏管理目标、责任人缺失或有关人员缺乏责任心和工作的优先级安排不当;人员激励所产生的质量问题主要指缺乏奖惩制度、奖惩制度的执行不到位、激励反馈渠道不畅和缺乏反馈机制。 5.2. 应用专题

本期规范丰富了数据质量管理相关应用,提升数据质量管理支撑范围和能力,拓展数据质量管理系统使用对象范围。通过引入新的技术和管理手段,在现有系统的基础上不断改进数据质量监控机制,并增强与外部系统交互互助的能力。

5.2.1. 开放式个人KPI监控

5.2.1.1. 应用背景

对业务数据质量的监控需要市场部、数据部等业务人员和地市运维人员的积极参与,而目前数据质量管理子系统主要是由省公司经分运维人员使用,对业务人员来说仍旧存在一定的技术门槛。

本应用主要面向市场部、数据部以及地市业务人员和运维人员,建立易于业务人员理解和使用的业务规则编辑工具,并根据业务人员编辑的业务规则提供定制化的反馈结果。同时,

18


中国移动省级NG2-BASS(v5.0)技术规范数据质量管理子系统分册(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:六一儿童节学校组织游乐园活动方案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: