中国电信EDA
性的分析与重写,提高特定应用的响应速度。
? 定期检查最消耗系统资源的应用进程,分析应用对应的SQL的执行逻辑,避免出现交叉重复、死循环等,减少不必要的性能浪费。
? 定期监控索引使用、数据库锁等事件,对数据库表与索引进行重组,获得更优的查询效率等。
? 定期监控数据库运行频繁的SQL语句,从而确定关键事务,并进行优化。 ? 定期对数据表连接常用的字段和索引等关键数据进行统计分析。
另外,ODS系统的的数据整合任务种类较多,在不同时段,不同类型的数据处理其紧迫程度和所需要的系统资源也不相同,应该针对各类任务设置不同的调度方式和运行优先级,进行分级负载管理。
总体规范2.0
5.1.4 实施指南(含软硬件选型)
? SMP架构(小型机)
目前ODS系统主要采用的是传统的商用环境,主要以采用IBM小型机、Oracle数据
库与EMC存储设备的组合为主,构成了一个从软件到硬件的完整商用数据库系统,主要强
调了单一系统的规模和处理能力,也就是纵向扩展(Scale-up)能力。支撑和解决目前大部门省份的ODS系统数据处理,以处理结构化数据为主,运行稳定性高,计算和查询效率中等,尤其对于有海量数据处理的情况下,需要高并发进行处理时,IO的瓶颈就比较明显,集中爆发式的任务,导致系统性能整体下降,对于硬件扩容,存在周期长,扩容的成本和代价高的问题,很难快速的响应和解决系统问题。
? Hadoop架构
电信业务在现有的基础上,数据也开始呈波浪式的往前推进,不断出现海量的结构化数据,同时,随着电信业务的不大扩展和延伸,在传统业务的处理和分析的基础上,也出现了需要分析非结构化的数据,以目前的架构,在性能上是比较难以满足的,那么就非常需要一个新的架构来进行补充,需要在海量的非结构数据中,快速的分析,抽取有
版权声明,保密
第22页 共123页
中国电信EDA
价值的信息,识别海量网页信息,不断跟踪网页信息,获取真实的结果数据,那么就需要有能处理海量互联网数据的架构和存储技术 ,那么X86分布式集群和hadoop架构,带来了高并发,高计算能力的解决方案,解决了扩容难,高并发,非结构的处理问题,为电信行业的“高效低成本”的运营模式开启了新的模式。该方式主要具备以下特点:
总体规范2.0
? 扩展性:能可靠地存储和处理PB级关系型、非关系型数据。在不保证低延时的前提下,具有相当大的吞吐量,非常适合海量数据的运算。
? 成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
? 高效率:通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
? 高可靠:可以自动地维护数据的多份复制,任务失败后能自动地重新部署计算任务 ? 逐步演变的过程
X86分布式集群做为传统SMP架构的补充和延伸,不是替换和替代,主要为目前的海量和非结构化的处理提供强力有的保证,同时,对于“IOE”中的去“IE”,降低硬件的成本投入,提高并行处理能力,解决IO瓶颈还是大有帮助,可以解决事情情况,逐步引入和在部分业务中优先使用,比如大批量的详单处理和查询业务上,月作业的收入的海量数据关联,减缓月初的出帐压力,提升效率。
5.2 EDW(亚联)
5.2.1 平台定位
EDW从ODS、大数据平台和生产系统获取整合后数据进行面向应用的加工和存储,存储了长期的、明细和概要的分析型信息,采用数据统计、多维分析和数据挖掘等手段,细分市场和客户,提供专业的分析模型和挖掘算法,发现数据中的价值信息,为市场精细化营销、客户针对性关怀和维系提供支持;通过数据反映出来的趋势,为领导的经营决策提
版权声明,保密
第23页 共123页
中国电信EDA
供支持;通过数据服务展现层,进行数据共享;为数据集市提供数据支持;EDW的使用对象为市场分析人员、管理人员、决策领导等。
总体规范2.0
5.2.2 功能要求
EDW平台的数据来源主要以ODS、大数据平台为主,也可以直接从生产系统接入数据;EDW不产生、不修改源数据。创建的数据为分析的结果和用户行为等数据产生的标签,创建的结果数据直接进行结果展现或者反馈给ODS、大数据平台和各应用数据集市;EDW主要支持OLAP类型的数据操作。
EDW主要以固定报表、多维分析、数据挖掘、即席查询、数据探索等应用方式来对业务需求进行支撑。固定报表主要使用对象为市场分析人员、管理人员、决策领导,主要用以支撑经营分析、决策分析、营销政策制订等应用;多维分析主要的使用对象为市场分析人员、管理人员,主要应用场景为从不同角度分析企业生产经营状况,掌握发展趋势等;数据挖掘主要的使用对象为市场分析人员,用以支撑对未知数据的分析汇总,掌握数据间的关联关系,对企业收入、发展趋势的预测,找到营销的目标客户群等;即席查询主要的使用对象为市场分析人员、管理人员,主要用来支撑固定报表、多维分析等应用不能满足的业务需求;数据探索主要的使用对象为市场分析人员,主要用于对数据进行深层次研究,找出数据在时间、空间上的隐藏关系,为市场经营分析提供不同的分析视角,指导经营决策。
EDW从各业务系统、非业务系统中将相关业务数据进行融合,在EDW系统打造统一业务数据视图,之后根据数据的管理及应用分类,进行相关主题的数据应用的支撑,整体功能要求如下图所示:
版权声明,保密
第24页 共123页
中国电信EDA
总体规范2.0
5.2.2.1 数据获取层
数据获取层,顾名思义就是数据仓库系统进行数据获取的层面,各个业务系统的数据在这里进行汇集,初次清洗审核之后进才能进入统一视图层。
业务系统的数据汇集可以是物理上的,也可以是逻辑上的,逻辑上的可以是各个业务系统提供数据的映射集合,物理上可以是一个存放各个系统的提供的接口数据的区域。
由于数据从ODS、大数据平台或者其他系统获取的时候,还没有进行融合,所以在数据获取层中,各数据是依据其所在的数据源进行分类存放,这样做的好处是有利于数据校验及异常回退。
版权声明,保密
第25页 共123页
中国电信EDA
总体规范2.0
5.2.2.2 数据存储层
数据存储层,是整个数据仓库系统的核心部分,各类业务数据都在这里进行汇集,通过ODS、大数据平台、其他系统进行数据采集;经过统一清洗,统一编码,分门别类之后存放在细节数据层;然后根据业务规则统一数据处理口径,为数据打上业务标签,进行数据的轻度汇总,将数据放在业务视图层;最后根据不同的业务需求生成应用数据,形成应用视图层。
5.2.2.3 数据展现层
数据仓库系统由于承担着各类数据应用支撑,使用系统的角色众多,而不同的角色,使用及观察数据的需求、角度及方式都会有所不同。这就要求数据仓库系统能够提供多种的数据展现方式来满足不同用户的需求。
数据展现层,除了提供KPI展现、多维分析、固定报表、即席查询等不同的展现方式之外,还要更多的考虑将这些展现的方式进行有机的结合,使得各种展现方式之间能够无缝衔接、平滑过渡。在数据展现层面,要结合用户的使用操作习惯及数据组织方式进行设计。让用户从繁琐的操作中解放出来,使用起来得心应手,专注于数据的分析及应用。
5.2.2.4 数据应用层
数据展现的目的是为了能有具体的应用,能解决相关的问题。若只有展现,而没有应用,数据的价值无法完全体现。应用需要循序渐进,开始可以是一些产品管理、营销管理、用户管理之类的应用,然后,可以对其进行总结和提取,如专家评论、咨询建议等,将这些信息形成知识库沉淀下来,通过智能问答等形式,形成营销政策、投资预算之类的,形成完整营销闭环流程的应用。以科学全面地支撑企业的经营分析决策。
版权声明,保密
第26页 共123页