《中国电信EDA总体规范-技术与架构分册》初稿(7)

2018-12-17 14:50

中国电信EDA

总体规范2.0

5.2.3 模型设计

5.2.3.1

模型层面 接口数据层 详单数据 用户资料、帐务资整合数据层 料等 详单数据 用户资料、帐务资汇总数据层 料等 详单数据 用户资料、帐务资应用数据层 料等 详单数据 存储策略

数据 数据周期 存储周期 永久 用户资料、帐务资日 料等 月 日 月 日、月 永久 1天 1月 12+1月 说明 一般指12个月内的业务数据;具体业务数据的在线周期可以根据该数据的重要度指数,月访问频率分析来决定; 一般具有相对较长的存在时间,一般指12个月至24个月的业务数据;通常针对汇总数据的在线周期可以更长; 在线存储数据中的高频率访问数据或有快速响应要求的数日、月 永久存储 据; 日、月 12+1月 日、月 24+1月 日、月 24+1月 日、月 永久存储 5.2.3.2 模型设计

EDW的数据模型体现的是技术架构数据存储层的模型,其中包括接口数据层、整合数据层、汇总数据层和应用数据层。

版权声明,保密

第27页 共123页

中国电信EDA

总体规范2.0

接口数据层

接口数据层为数据临时存储区,数据来源于ods、大数据平台等其他外围系统。为了保证获取数据的一致性、准确性、可重复操作性,在做模型设计时,需要基本与数据源保持一致。接口层一般不作为汇总数据层和数据应用层的来源,除了一些实时性要求很高的应用,如用户发展、终端销售等。

1、数据来源:接口数据层主要存储来源于ODS的数据,其他还可以从大数据平台、其他外围接口采集数据

2、数据模型:与源系统保持一致

3、存储时效:用户资料、帐务数据永久储存,详单类数据通常采用每日清空重新加载

4、处理频度:用户资料、详单类数据采用每日采集,帐务数据每月采集

版权声明,保密

第28页 共123页

中国电信EDA

整合数据层

数据整合层的数据来源为接口数据层,是整个EDW数据模型的核心部分,所有的数据在获取之后,经过统一清洗,统一编码,分门别类存放在这个区域,之后再为不同的应用提供支撑。模型以CTG-EDM为标准,结合数据仓库模型设计方法论进行物理化处理。

1、数据来源:整合数据层的数据来源于EDW的接口层 2、数据模型:采用CTG-EDM数据模型

3、存储时效:用户资料、帐务数据储存12+1月,详单类数据存储12+1月 4、处理频度:用户资料、详单类数据采用每日处理,帐务数据每月处理

汇总数据层

汇总数据层主要数据的来源为整合数据层,接口数据层也可以有少量数据直进入汇总数据层,整合层模型一般采用第二范式或者第三范式的模型。汇总数据层与整合数据层最大的区别在于,整合数据层的数据经过ETL的过程后,模型体现的是原始业务的逻辑,而汇总层进行数据汇总以后,加入数据处理统计逻辑、各种统计规则、数据映射方法、数据挖掘分析方法等数据处理手段,是一个初步的数据处理存放的轻度汇总数据层。

汇总数据层可以采用多维度轻度汇总的星型模型,也可以采用第二范式的多指标模式建模。星型模型的优点是数据处理简单,逻辑清晰,易扩展,缺点是数据处理结果集比较大,记录数多,不利于查询和应用;第二范式模型的优点是记录数小,查询响应速度快,缺点是数据处理逻辑不易体现,模型不易扩展。

1、数据来源:汇总数据层的数据来源于EDW的整合数据层或者接口层; 2、数据模型:采用星型模型或者第二范式模型

3、存储时效:星型模型类数据储存24+1月,第二范式模型数据存储12+1月 4、处理频度:用户资料、详单类数据采用每日处理,帐务数据每月处理

数据应用层

总体规范2.0

版权声明,保密

第29页 共123页

中国电信EDA

数据应用层的数据主要来源于汇总数据层,有少量数据直接来源于整合数据层和接口数据层。数据应用层的模型需要面向具体的分析应用,支撑各类统计分析、多维分析、专题分析及快速的决策支撑,模型主要高度汇总的、主题分析型、专题分析型等模型;

数据应用层为长期保留的数据,建议不进行数据压缩,建立索引。

1、数据来源:整合数据层的数据来源于EDW的汇总数据层、整合数据层或者接口层;

2、数据模型:采用少维度高汇总模式星型模型 3、存储时效:永久存储

4、处理频度:日应用按天处理,月应用按月处理

总体规范2.0

5.2.3.3 优化处理

EDW系统是一个以数据为核心的数据仓库系统,大量的数据时刻处于动态变化之中。如何使这些海量数据处于最优的存储状态,能够快速响应多种应用需求,并且尽可能少占用系统资源,是数据优化工作要重点解决的问题。

数据优化分为数据模型优化、数据处理优化、数据压缩优化三部分。 模型优化

在源系统数据发生改变之后,或者当前数据模型无法很好对各种应用进行支撑时,应该启用数据模型优化流程,对数据模型进行修正。数据模型优化重点解决以下四类操作问题:

1. 多表连接

对一些经常需要关联的表进行预连接(Pre-Join),当数据规模较小时,也可以适当采用星型(Star-Schema)建模方式。

2. 表的累计

在数据模型中增加有关轻度汇总数据(Summarized Data)的项。

版权声明,保密

第30页 共123页

中国电信EDA

3. 数据排序

模型设计时,对数据进行预先排序。 4. 数据分区或索引

通过索引或分区技术,避免对大数据量表的全表扫描。 处理优化

数据仓库中数据处理任务分为数据加载和数据生成。 数据加载任务包括: ??业务数据抽取 ??基础数据加载与转换 数据生成任务包括: 1. 业务分析数据处理 2. 分析结果展现 3. 数据结果导出 4. 临时分析查询 5. KPI展现 6. 多维分析展现 7. 数据挖掘等专题展现

以上数据处理任务的优化,很大程度上依赖于对SQL语句的优化。SQL执行性能对数据仓库的性能影响很大,必须形成一个长期的SQL监控和优化机制:

1. 监控数据仓库,捕获引起特定性能问题的应用对应的 SQL 语句,对其进行具有针对性的分析与重写,提高特定应用的响应速度。

2. 定期检查最消耗系统资源的应用进程,分析应用对应的SQL的执行逻辑,避免出现交叉重复、死循环等,减少不必要的性能浪费。

3. 定期监控索引使用、数据库锁等事件,对数据仓库表与索引进行重组,获得更优的查询效率等。

版权声明,保密

总体规范2.0

第31页 共123页


《中国电信EDA总体规范-技术与架构分册》初稿(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:贵州省湄潭县2019届高一生物下学期第三次月考试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: