大数据治理体系(7)

2018-12-04 16:33

数据管理者录入数据标准和元数据信息数据标准接口数据标准前向稽核错误文件记录否前向规则稽核是稽核规则库数据提供者进入大数据存储平台元数据信息采集数据消费者数据质量后向稽核后向规则稽核错误正确错误信息记录

图6-6数据标准管理监控流程图

数据标准管理监控流程如下:

1. 数据管理者录入数据标准和元数据信息。 2. 根据数据标准制定数据标准接口。

3. 根据数据标准生成的稽核规则,进行前向稽核,稽核正常进行下一流程,稽核非正

常返回错误文件记录给数据管理者做数据标准的更新。

4. 数据提供者将数据提交到企业级大数据平台,并且完成对元数据的采集。 5. 对数据提供者数据进行后向稽核,稽核正常则数据可提供数据消费者正常使用,稽

核非正常返回错误信息记录给数据提供者做数据修订。

6.1.5. 本期建设范围及内容

本期数据标准管理建设范围要求涉及企业级省大数据平台中数据标准内容,但不在全集团范围内强制统一数据标准规范。

本期具体建设内容包括: 1、数据标准规范内容涵盖: ? 行业参考模型实体标准 ? 指标数据标准

25

? 公共代码标准

2、数据标准化管控内容涵盖: ? 建立数据标准化管理组织架构。 ? 搭建数据标准管理模块。

? 实现数据标准管理流程的功能系统化,并衔接元数据管理、数据质量管理和数据资

产管理形成数据治理的闭环运维。

? 提供具数据标准产品,如数据标准查询APP等。 6.1.6. 实施要求

数据标准管理实施要求包括:

1、数据标准统一规划。按照企业级省大数据平台的数据治理要求,结合数据标准规范指导内容,构建适应企业级省大数据平台的数据标准体系,并制定数据标准实施方案。

2、建立数据标准管理的支撑体系。要求包括数据标准管理组织架构、数据标准管理办法和制度流程,以及数据标准管理支撑工具。

3、实现中国移动企业级省大数据平台中数据业务口径和技术口径有效协同统一。 4、支撑中国移动企业级省大数据平台的平台化、产品化和数据资产运营的需求。 5、支撑新增企业级省大数据平台数据接口内容的标准化定义。 6、满足原有数据可逐步进行数据标准规范的迁移和统一。

6.2. 元数据管理

6.2.1. 背景

元数据管理模块是大数据平台数据治理体系的重要组成部分。IT研究与顾问咨询公司Gartner发布的《2013年十大战略性技术趋势》中对于企业战略性大数据的描述如下:将多个系统,包括内容管理、数据仓库、数据集市和专门的文件系统等与数据服务和元数据相互结合,组合为“逻辑的”企业数据仓库。通过对这个“逻辑的数据仓库”的有效治理,为企业后续的数据资产运营、增值以及数据服务提供有效支撑。

中国移动企业级省大数据平台是这种逻辑的企业数据仓库的一个具体落地实现,元数据管理的建设将贯穿大数据平台建设、使用、运营、维护的全过程,并发挥以下作用:

26

? 提供企业级数据字典,便于内外部客户更好地了解企业数据概况; ? 提供全局元数据查询检索,便于用户快速定位元数据; ? 提供元数据详细描述,使用户了解数据组成、结构及数据流向; ? 提供血缘/影响分析功能,便于用户进行分析判断、问题定位; ? 提供元数据接口服务,便于其它系统或模块使用元数据服务; ? 提供元数据应用,方便终端用户使用元数据;

? 提供统一的基于元数据描述的API管理产品,集中管理平台开放的内外部API。 大数据平台的元数据管理方面,与传统经分相比,主要有以下不同点:

? 管理范围不同:

? 新增集群NameNode节点的管理元数据; ? 新增集群DataNode节点的业务/技术元数据;

? 新增大数据平台内部以及其与DW、MPP等跨工具/产品的复杂数据流元数据。 ? 管理制度方面:

? 管理流程:新增跨部门、跨系统的多层次交互式的元数据注册、维护、管理、

使用流程,同时需要针对不同用户提供有针对性的元数据产品支持。 ? 角色权限:管理上更加细致的分工,不同部门需新增相应的元数据查询、管理、

维护角色;

? 工具支撑方面:

? 需支持大数据平台新增元数据范围地获取、存储与管理; ? 需支持大数据平台海量元数据的获取、存储、管理及应用;

? 需提供标准化定义,并支持管理集群节点快速获取分节点的运行元数据信息; ? 需对大数据平台的文件、语音、图片等非结构化数据的标记元数据,即大数据

相关的词库元数据进行管理,并提供检索查询等应用支持; ? 需通过元数据对大数据平台的新增数据进行敏感定义及标记; ? 需为终端用户提供简单易用的元数据产品,降低使用成本。

6.2.2. 元数据运营模式

本期规范要求,在提升元数据用户使用体验的同时,着重改善元数据管理的运营模式,重点建设前向的元数据管控机制,并逐步探索集中的大数据平台元数据管理方式。

27

本期规范中,除元数据基础功能外,对元数据管理的运行维护提出以下要求:

? 对于集团统一标准规范的元数据,严格按照集团提供元数据标准落地; ? 对于大数据平台的集群NameNode、文件目录等部分元数据,通过互通机制定

期按集团要求格式上报。

6.2.3. 元模型标准

关于元数据标准的元模型部分,将在经分规范的核心元模型基础上,根据大数据平台新增数据结构特点进行扩充,以满足这部分元数据获取、存储、管理及应用要求。主要涉及集群节点的namenode元数据及Hadoop的文件/目录元数据。

本期规范需要上报的元数据信息,主要涉及集群NameNode元数据,包括集群的运行监控信息及文件/目录元数据。

图6-7总部集群与省集群节点的元数据上报关系示意

图6-7为集团总控节点与省集群节点的元数据上报关系示意图。集群节点定期上报其自

身的NameNode阶段运行信息及数据节点的数据信息,供集团了解省分节点运行、存储情况,为后续的统一管控提供基础支撑。

6.2.3.1. 集群监控类

28

对于集群NameNode节点的运行监控类元数据,属于Apache Hadoop的私有定义,暂无

法使用或在CWM规范基础上扩充。故直接引用Apache Hadoop的相关定义,并对其进行适当规范。

本期对NameNode节点的元数据上报信息要求如下:

英文名 Configured Capacity Present Capacity DFS Remaining DFS Used DFS Used% Under replicated blocks Blocks with corrupt replicas Missing blocks Datanodes available Datanodes Non available 配置容量 当前总容量 剩余容量 已用容量 使用率 待复制数据块 中断复制数据块 丢失数据块 可用节点数 不可用节点数 中文名 类型 double double double double double double double double double double 小数点后4位 备注 需要上报的作业监控信息如下:

英文名 Name Description LastModified Steps Status Owner 名称 描述 更新时间 步骤 状态 拥有人 中文名 类型 text text date double text text 备注 Datanode节点需要上报的元数据信息如下:

英文名 Name Hostname Rack Decommission Status 节点名称 主机名 所属机架 可用状态 中文名 类型 text text text text 29

备注


大数据治理体系(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:贵州省事业单位考试真题及答案解析

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: