规划局大数据统计平台建设方案 智慧规划大数据云平台建设方案(7)

2019-05-27 20:45

智慧规划大数据云平台建设方案

据存储之前,同类业务数据的一致性和完整性。

图3-6 ETL工作流程图

1.数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据大数据平台中去。

2.数据转换主要用于解决数据不一致问题,数据加载就是将从数据源系统中抽取、转换后的数据加载到数据存储层。

3.流程管理调度是ETL过程中的统一调度者和指挥者,它把复杂的数据处理过程中各个步骤整合成一个整体。

4.异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套机制。

数据进行ETL处理之后,生成规范的综合的业务规划基础数据。根据不同的业务分析系统的业务口径,进行汇总、生成汇总数据,在汇总数据的基础上再加工生成多维数据、报表数据和规划分析数据等应用数据支持数据使用层的业务系统调用。 (2)数据治理原则

30

智慧规划大数据云平台建设方案

图3-7数据治理原则

1.约束输入:设定用户输入权限及范围,做好输入约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,不能再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不能产生有大量相同数据的表,造成数据重复隐患。

2.规范输出:统一报表指标与参考值,统一语义,统一口径,排除计算错误,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备案,语义字典明确定义其规划口径和含义。不同规划口径的指标

31

智慧规划大数据云平台建设方案

必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程申请注册一个新词到语义字典。

(3)脏数据处理

脏数据的种类有如下几种分类:

图3-8脏数据分类图

1. 数据缺失:处理过程中因系统或人为导致部分记录缺失的, 如一条记录里缺一些值(空值),或者两者都缺。如果有空值,为了不影响分析的准确性,则判断是否将空值纳入分析范围,或者进行补值。前者排除空值会减少分析的样本量,后者需要根据分析的计算逻辑,选择用平均数、零、或者等比例随机数等来填补。如果缺少记录部分,若业务系统中还存有这些记录,

32

智慧规划大数据云平台建设方案

则可以通过系统再次导入解决,若业务系统内也没有上述记录,则通过手工补录或者放弃。

2.数据重复:相同的记录出现多条,则去掉重复记录。如出现不完全重复情况,比如两条会员记录,其余值都一样,但部分值不同,如住址不一样,则以时间属性做为新值判断依据,如无时间属性的,则通过人工判断处理。

3.数据错误:数据没有严格按照规范记录。比如异常值,价格区间明明是100以内,但出现有价格=200的记录;比如格式错误,日期格式录成了字符串;比如数据不统一,有的记录叫XX,有的叫LZ,有的叫lanzhou。对于异常值,可以通过区间限定来发现并排除;对于格式错误,需要从系统级别找原因;对于数据不统一,系统无法处理,这些并非真正“错误”的记录,如系统无法判断LZ和lanzhou是同一事物,只能通过人工干预解决,如做一张清洗规则表,给出匹配关系,第一列是原始值,第二列是清洗值,用规则表去关联原始表,用清洗值做分析结论,或通过近似值算法自动发现可能存在不统一的数据。

4.数据不可用:数据正确,但不可用。比如地址写成“XX省XX市西固中街1号”,想分析“区”级别的区域时还要把“西固”拆出来才能用。这种情况最好从源头解决,即数据治理。事后补救只能通过关键词匹配,且不一定能全部解决。

基于数据交换系统采集文化产业数据之后,结合业务现状对

33

智慧规划大数据云平台建设方案

源数据进行加工(脏数据清洗、数据整合,统一数据指标)。提高数据可用性。

3.4.3基础模型搭建 (1)搭建目标

结合XX规划局业务情况进行,对已采集数据进行汇总,针对分析人员及领导重点关注业务及数据分析习惯,对ODS数据进行轻度/重度汇总,搭建模型存放于WEB资源池中,为OLAP多维分析、定制报表开发、自主取数进行数据支撑

图3-9 WEB资源池架构

规划基础数据:轻度汇总数据,数据粒度较细,主要用于清单数据提取,OLAP多维分析

规划综合数据:重度汇总数据,数据直接反映了某一指标

34


规划局大数据统计平台建设方案 智慧规划大数据云平台建设方案(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:report4郭小明 三维图形程序设计 电子科技大学

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: