《中国电信EDA总体规范-技术与架构分册》初稿(8)

2018-12-17 14:50

中国电信EDA

4. 定期监控数据库运行频繁的SQL语句,从而确定关键事务,并进行优化。 5. 定期对数据表连接常用的字段和索引等关键数据进行统计分析。

另外,数据仓库的应用种类较多,在不同时段,不同类型的数据处理其紧迫程度和所需要的系统资源也不相同,应该针对各类任务设置不同的调度方式和运行优先级,进行分级负载管理。 压缩优化

运用数据压缩技术,数据库可以对重复性比较高的数据进行压缩,以减少存储空间,降低查询I/O,提高查询的响应速度。

通常,数据压缩可以在不影响数据读取性能的前提下,节省10%-70%的空间。

总体规范2.0

5.2.4 实施指南(含软硬件选型)

5.2.4.1

大项 相关技术指标

小项 查看目标报表的点击次数<4次 固定报表功能 查询结果的返回时间,从点击查询开始到数据展现,要求<6秒 报表保存时间,从点击下载报表开始到选择保存文件内容,要求<6秒 查询结果的返回时间,从点击查询开始到数据展现,要求<6秒 点击下转、拖拽、旋转、切片的响应时间,从点击开始到数据展现,要求<3秒 多维分析功能 自动汇总数据响应时间,从点击开始到数据汇总完毕,要求<3秒 图形展现时间,从点击开始到图形展现完毕,要求<3秒 报表保存时间,从点击下载报表开始到选择保存文件内容,要求<6秒 版权声明,保密

第32页 共123页

中国电信EDA

总体规范2.0

5.2.4.2 架构选型

EDW平台主要承载企业数据仓库的建议与实施,需要支撑复杂的、高级的数据分析应用,包括综合分析、数据挖掘和专题分析等。基于这个目标,EDW的主要数据的特征就需要为海量、非实时、结构化、静态的。

建议采用基于MPP高可扩展并行数据库架构,或者传统的小机加高端存储的架构,这两种架构都可以实现EDW的生产运营。

5.2.4.2.1 MPP架构

MPP提供了另外一种进行系统扩展的方式,它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联,数千个CPU。

目前业界对节点互联网络暂无标准,如NCR的Bynet,IBM的SPSwitch,ORACLE的Exadata,它们都采用了不同的内部实现机制。但节点互联网仅供MPP服务器内部使用,对用户而言是透明的。

5.2.4.2.2 小型机+高端存储架构

传统的数据仓库架构,由小型机+高端存储构成。主要特点是数据集中、处理高效、数据库操作简单,结构化海量数据处理便捷。其短处主要是投资高,可扩展性差。

目前各大硬件厂商象HP、IBM、DELL都有各自的小型机+高端存储的数据仓库解决方案。

版权声明,保密

第33页 共123页

中国电信EDA

总体规范2.0

5.3 大数据平台(迪科)

5.3.1 平台定位

移动互联网时代给电信运营商带来前所未有的机遇,这个时代的到来同样也给电信运营商带来了无限的挑战,特别是业务数据复杂化的挑战。这个挑战主要表现在以下两个方面:其一、传统数据仓库难以满足日益增长的业务数据所带来的存储、计算需求。随着业务发展数据量的增加,应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力; 数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等。其二、传统数据仓库难以满足非结构化数据的处理要求。移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页、微博、投诉/咨询建议)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等。以上两个方面的数据已经开始对运营商的数据业务形成了部分障碍,随着大数据的应用将能相关问题将能获得有效解决。

大数据平台是在此背景下对传统EDA架构的扩充,负责处理海量结构化数据、非结构化及半结构化化数据的处理分析,通过hadoop技术对海量数据进行轻度汇总,对非结构化及半结构化数据进行标准化、标签化,共享到ODS,同时开放清单库查询、自助取数功能。

5.3.2 功能要求

5.3.2.1

标签分类

标签分类是对移动互联网、宽带互联网及信令位置数据进行分类标签化。通过用户的行为数据与基础信息库的匹配,为客户行为打上分类标签。基础信息库包括url分类库、app分类库、搜索关键词库、位置信息库。

标签分类的处理流程如下图所示:

版权声明,保密

第34页 共123页

中国电信EDA

总体规范2.0

数据处理逻流程

数据装载:包含移动互联网数据(DPI数据、wap网关日志)、宽带互联网数据

(城域网网关日志、家庭网关日志)、位置数据(信令数据)、业务平台数据(网厅轨迹)等海量结构化/非结构化用户行为接口数据实时/准实时装载到hadoop平台分布式文件系统;

数据标准化:对原始的非结构化、半结构化、海量结构化数据进行标准化处理,

过滤无效数据。

标签化:用户的行为数据与基础信息库进行匹配,如url访问,拿用户的访问的

url地址与url分类库进行匹配,匹配成功打上分类标签,未匹配成功的无规则URL数据通过网络爬虫爬取网页内容,并对网页内容进行分词,然后与词库进行匹配,并根据关键词出现的频率通过算法对URL进行分类。

数据汇总:对标准化、标签化后的清单数据进行轻度汇总。主要的汇总维度有用

户、标签类别、APP类别,对应的指标主要有访问次数、访问流量等。

数据存储:存储标签化及轻度汇总后的数据,构建清单库。

版权声明,保密

第35页 共123页

中国电信EDA

数据共享:清单级数据向应用层共享,主要应用于清单库查询,自助取数,轻度

汇总数据向ODS共享。

基础信息库:包含url分类库、app分类库、搜索关键词库、位置信息库。 ? url分类库:由分类标签、url地址构成;

? app分类库:由分类标签、app名称、通信url地址、下载url地址构成; ? 搜索关键词库:由分类标签、关键词构成;

? 位置信息库:由商区类别、位置名称、扇区ID构成;

总体规范2.0

5.3.2.2 文本分析

文本分析是对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的

一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个非结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。

文本分析主要分析对象包含投诉/咨询建议、互联网网页内容、微博内容等,从中

发掘客户关注内容。

5.3.2.3 清单查询

在移动互联网时代,除传统的语音清单、短信清单、账单查询之外,内容类详单带来数据量数量级的增长。在此环境下,大并发量、海量的数据查询服务带来了新的挑战,传统的数据库平台已经不能满足要求,因此需要引入大数据平台对海量数据的快速处理、查询能力。

基于大数据平台提供清单查询服务主要要求如下: ? 支撑互联网场景下的高并发用户清单查询、账单查询; ? 同时具备承载未来CCG内容类话单的查询能力;

? 同一服务多节点部署,提供高吞吐量查询,更好的支撑持续增长的业务量; ? 基于Hadoop+HBASE技术,低廉PC集群,分布式可伸缩架构,减低成本;

版权声明,保密

第36页 共123页


《中国电信EDA总体规范-技术与架构分册》初稿(8).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:贵州省湄潭县2019届高一生物下学期第三次月考试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: