中国电信EDA
2. 使用集群技术/并行处理技术,提高数据操作的性能、稳定性和可扩展性; 3. 提供数据库的自动诊断和调优功能,提供各种优化建议:内存参数、表结构、索引、
SQL语句等;
4. 数据库支持在线备份恢复机制,支持灾备解决方案,实现同城或异地数据保护。
总体规范2.0
5.1.2.3 数据共享
ODS系统对外提供数据共享,共享的信息尽可能从整合数据层获取,通过数据文件、数据库物理共享、接口表、视图、数据高级复制、Webservice等技术手段,以不同的频率要求,对外提供共享数据服务,系统包括EDW、营销、维系、代理商、百事通、10000号等系统。
数据共享主要需要关注以下几点:
1. 支持数据视图、FTP文件和Web服务等方式对外提供接口服务;
2. 支持高并发性访问,通过连接池、负载均衡、集群等技术提高访问的并发性; 3. 批量的数据导出作业,根据不用的业务需求,以错峰和优先级高低的,避开ODS系统
处理的繁忙时段,充分利用系统资源;减少由于同一时间段的作业,引起系统的堵塞和性能下降;
4. FTP的文件传递,FTP文件单文件不超过2GB,超过2GB时分割成多个文件; 5. 对大量并发的准实时批量数据共享操作可以按资源占用和所需时间进行合理调度。
5.1.2.4 数据应用
ODS系统承载和整合了企业细粒度运营数据,支撑一线的生产和管理人员数据分析应用需求,主要提供了以下几种数据应用
版权声明,保密
第17页 共123页
中国电信EDA
? 批量计算
? 批量计算主要包括客户积分计算,客户信用度计算,客户品牌标签计算等 ? 报表统计
? 主要针对及时性要求较高的准实时报表,比如主数据发展量报表,主数据受理
量报表等 ? 客户统一视图
? 以统一的口径,把客户端基本信息,用户信息,受理信息,客户落地信息,客
户接触信息等,通过客户资料查询功能模块整合,在功能展现上,打包成一个统一的展现视图,方便操作与共享。
总体规范2.0
5.1.2.5 数据稽核
通过建立稽核点,配置稽核任务,设定告警阀值,收集和分析稽核结果,检查和稽核接口层,整合层,汇总层的数据质量,对接口层的数据质量问题,反馈给源系统进行处理,对整合层和汇总的数据质量问题,系统内部及时的进行修正和处理,通过不断的数据质量闭环处理,从而提升企业数据质量。主要从几个层面对数据进行稽核
? 接口层
? 主要体现及时性、完整性、一致性。
? 确保ETL加载过程及时,准确,完整、保持与源系统数据一致的原则、做到
加载及时,加载目标准确无误。加载对象与预定内容一致,加载内容无缺失。
? 整合层
? 主要体现准确性、及时性、一致性。
? 确保对数据加工过程质量的可控,验证处理环节操作的准确性和数据生成的
及时性,验证关键指标的准确性和一致性
? 汇总层
? 主要体现逻辑性、完整性。
版权声明,保密
第18页 共123页
中国电信EDA
? 确保数据汇总结果之间的逻辑平衡、包括各汇总层表量收平衡、发展量平衡、
到达数平衡等,同时保证汇总层数据展示完整性,稽核项目缺失
总体规范2.0
5.1.3 模型设计
? 模型设计需要考虑高速批量加载及高并发查询的快速响应;
? 模型能够支持不同粒度的查询与报表需求,综合考虑业务需要,具备适应性; ? 通过数据模型的规范化设计,减少不必要的数据冗余; ? 模型具有良好的扩展能力。
5.1.3.1
数据类型 客户产品 档案资料 档案资料 归档数据 详单 存储策略
保持周期 存储内容 包括客户资料、账户资料、用户资料、营销套餐业务受理长久保存 订单资料、业务受理订单产品特性资料、业务受理订单资料、营销套餐业务受理细项订单资料、子产品订单历史表 定期清理 归档级别的数据库,可以认为是在近期不太可能被经常查询访问到的数据,往往指18个月以上的业务数据; 1+1(月) 包括语音业务,数据业务,增值业务等 以月会单位进行数据整合处理,包括月账单,月欠费,月销账记录等等 按照日期、地区、产品、销售品、渠道等维度对运营数据进行计算、汇总后生成的数据 配置数据和定义表 账单 6+1(月) 汇总数据 参数定义 12+1(月) 长久保存 版权声明,保密
第19页 共123页
中国电信EDA
总体规范2.0
5.1.3.2
接口数据层
模型设计
接口数据层存储的是由ODS从源系统采集的数据,其主要特点如下:
1) 接口数据层存储ODS采集的外围接口数据,如CRM、计费、销账、10000号、百
事通、服开、激活、客调、资源、GIS等系统;
2) 接口数据层的数据模型,如果是同构模式的,与外围系统基本保持一致,如果是
源系统经过数据关联抽取出来作为临时加载使用,模型可以根据实际业务定义; 3) 接口数据层的数据与外系统保持实时/准实时同步/按天/按月数据同步,对于有
实时要求的数据,应尽可能提高数据的实时性。按天,按月的数据,在模型设计过程中,要考虑时间戳,加载状态等关键信息。
4) 和大数据平台的对接,要考虑大数据平台的模型设计特点,保持高效同步。 整合数据层
整合数据层存储是经过数据清洗、转换、整合后的运营数据,是ODS的核心数据层,其主要特点如下:
1) 整合数据层是ODS存储数据的核心层;
2) 整合数据层的数据原则上是经过统一编码转换后的数据,可作为企业数据标准指
导外围系统逐步统一数据格式;
3) 数据模型遵循集团EDM模型,按照3NF模式落实具有物理特征的EDM逻辑模型。 汇总数据层
汇总数据层是针对ODS支撑的跨系统生产报表等应用需要,根据主题的维度形成的企业统计、汇总数据,其存储的数据主要特点如下:
1) 根据主题报表加工需要,形成汇总数据;
版权声明,保密
第20页 共123页
中国电信EDA
2) 结合应用的要求,按照日期、地区、产品、销售品、渠道等维度对运营数据进行
计算、汇总后生成的数据;
3) 可基于原有汇总数据基础上,根据需要继续汇总,形成多级汇总数据 共享数据层
共享数据层是基于ODS中各层整合好的数据,对外提供数据共享,其主要特点如下: 1) 共享数据层统一对外系统提供共享服务;
2) 对各系统数据共享的信息尽可能从整合数据层获取。 优化处理
ODS系统是一个以数据处理为核心的系统,大量的数据时刻处于动态变化之中。尤其是当前处理准实时的资料数据,对数据量大,时效性要求高,如何使这些海量数据处于最优的存储状态,能够快速响应多种应用需求,并且尽可能少占用系统资源,是数据优化工作要重点解决的问题。
总体规范2.0
5.1.3.2.1.1 模型优化 在源系统数据发生改变之后,或者当前数据模型无法很好对各种应用进行支撑时,应该启用数据模型优化流程,对数据模型进行修正。 1. 数据分区或索引
通过索引或分区技术,避免对大数据量表的全表扫描。
5.1.3.2.1.2 处理优化 数据处理任务的优化,很大程度上依赖于对SQL语句的优化。SQL执行性能对ODS数据库的性能影响很大,必须形成一个长期的SQL监控和优化机制:
? 监控数据库,捕获引起特定性能问题的应用对应的 SQL 语句,对其进行具有针对
版权声明,保密
第21页 共123页