第1章 数据分析及展示软件平台选型
1.1 项目采购软件要求
1.1.1 数据查询和分析软件
行业运行分析标项需采购数据查询和分析软件,并基于此软件开发标准的可被其他应用重复使用和可扩充的综合分析查询,此部分支撑软件技术要求如下:
1.1.1.1 技术架构
1.1.1.1.1 数据查询与分析
(1) 数据资源层
分成两个部分,一类是系统外部业务数据资源,一类则是系统内部管理的知识库和配置库。外部业务数据存放着海量的业务数据,实际就是整个系统分析的对象,可以是直接的原始业务数据库,也可以是经过整合清洗后的数据仓库或数据集市;知识库则存放着关于业务库的元数据、业务规则、各类商业分析模型等,可以说是业务分析专家知识的结晶;配置库则是系统内部管理需要的数据。
(2) 分析支撑平台
此层以应用中间见平台为基础,提供了一个用于构建实时商业智能分析的支撑平台,为上层查询和分析应用提供一组基础性、关键性服务和组件;确保了整个系统的安全、可靠、高性能、可扩展性。
(3) 数据资源层
此处实现了数据查询与分析系统的各类可信服务和引擎,针对每种查询分析和其他数据应用都会有对应的引擎在后台提供支撑。
(4) 数据展现
数据资源层展现是整个系统的统一访问入口和集成展现框架,提供与最终用户进行交互的各类界面,如明细查询、多维分析、报表查看等。作为一个门户框架,可以插接不同的查询分析部件,提供统一的访问授权、个性化控制、内容共享、发布和订阅以及向主题的展现集成。
1.1.1.1.2 分析建模
根据各业务决策需要,基于行业数据资源整合库,系统提供工具进行业务分析模型的设计和管理;系统支持查询、多维分析、报表等模型的可视化设计和管理,例如对于多维分析模型而言,可实现其中基础业务数据表、维度(即业务分析的角度)、度量值(即业务分析的统计分析指标)、计算成员等属性及关系的设置管理,实现对行业数据资源的综合分析利用。
1.1.1.1.3 OLAP多维分析
多维分析具有很强的人机互动性、数据表达的灵活性,业务人员可以完全脱离技术人员的帮助,360度全方位自由地分析数据,在联机交互分析的过程中,大量的信息特别是“例外”信息被发掘出来。
系统可以为用户提供自定义的多维的展现分析能力,借助于友好的分析界面,用户可以简单灵活的对某决策分析主题设定分析的角度组合以及相关统计指标,系统就可按用户需要展现出自定义的分析报表。通过动态分析,可以快速的获取到固定报表所不能提供的数据,完成特定主题的分析任务。
系统提供了如下丰富的操作选项,可大大提高人机交互分析的效果: (1) 任意的维度组合
通过一个、两个或多个维度的组合,用户可以从自己所关心的角度从多个方面多业务数据进行组合分析。例如:将时间和车辆类型进行组合,可以分析不同车辆在不同时间段内的出行规律,从而为指定各时段的交通管理政策提供决策依据。在维度组合时,用户可以选择要显示或隐藏的维度级别。
(2) 多种数据钻取
用户可以在任意维度上,从较高层的数据粒度级别进入到更低的粒度级别,即向下钻取或钻透(直至可以钻取到最细节的源数据)。钻取的方式也可以从较低的数据粒度级别返回到更高的数据粒度级别,即向上钻取;此外,还可以在相同粒度级别的成员之间进行比较,即横向对比。
(3) 数据切片
用户可以在任意维度上进行数据成员切片操作。不同维度上的切片可以组合,同一维度上的数据切片既支持单一数据成员的切片,也支持多数据成员的复合切片(又称切块)。
(4) 数据筛选
可以对展现的维度成员进行筛选。 (5) 动态组合
利用动态分组可以查看没有特别细化的汇总。
1.1.2 数据查询技术
系统格局客户在分析数据的同事进一步掌握原始基础业务数据情况的需求,在提供灵活的综合业务数据统计分析报表基础上,可从统计分析报表追溯查询明细的基础业务数据,并通过设置条件对基础业务数据进行过滤和筛选,从而获取客户所需要的业务细节信息,提高管理的精确性。
能够定义查询模型,并且基于该模型可以发布保存多个具备固定结构的查询。 提供专门的基于web的查询设计器,最终用户能够可视化编辑查询模型和固定查询;并能够对编辑定义的结果进行保存和重现。
查询列表界面提供导航、过滤器、升降排序、导出、打印等功能。 示警功能,能基于预定条件发出示警。
1.1.3 报表展现技术
报表也是一种基本的数据分析展现工具,侧重于从历史和多维数据源中统计、归纳出有价值的业务信息。报表的交互性和实时性相对较差,但其数据表达的综合性、数据展现布局的灵活性、多样性以及应用的广泛性在所有分析部件中确实最高的。系统支持如下种类的固定格式报表:
(1) 列表
列表是报表最通用的模式,在大多数报表中,都需要或部分需要将一组(多余)数据结构完全相同的数据以数据格式顺序展现出来。
(2) 分组
在列表的基础上,我们可能还需要对数据进行进一步的处理。比如,将同类数据显示在一个组中,并对这个组进行统计运算。
(3) 主从
试想一下,有两组数据,之间的对应关系是一对多的关系,如何在报表中进行对应展现。这就涉及到了主从报表模型。举例来说,订单数据在数据库中存储的时候,往往分主单表和明细表两个数据库来存放。为了节约数据库开销和线路传输负荷,在取数据的时候也往往使用两个数据源进行分别数据提取,这样就形成了两个数据组。
(4) 嵌套
嵌套报表其实一种设计技巧的应用,类似彪马过程中的模块化设计。当报表的复杂程度让设计者开始觉得逻辑混乱的时候,可以使用嵌套报表设计方法,将报表拆分为多个不同的设计页面,然后使用一个总的页面将这些设计页面整合起来展现。此外,嵌套报表有的时候也会用于主从结构的实现,通过逐层嵌套,可以实现无限层次的主从结构数据展现。
(5) 交叉
在所有的报表模型中,交叉报表模型可能是最特殊也是最常用的了。所谓交叉是指:报表的横向(列数和列标题)、纵向(行数和行标题)都不是固定的,根据数据源中返回的数据来动态创建。而后根据创建的列标题和行标题,进行交叉的统计汇总,汇总方式包括求和、求平均、求记录数、取最大/小值等。
(6) 图形
在繁复的数据中,通过图形可以最直观地表现出其中的规律,在这个任务需要采用图形模式。
(7) 动态报表
固定报表知识用户获取数据的一种方式,主要适用于固定的数据分析模式。但是在很多场合下,用户对数据分析的方式不能预先确定,需要一种灵活性强、快速获取数据的手段,以满足用户千变万化的需求。如果以常规方式,先提出固定报表需求,进行报表定制开发,需要一定的开发周期,不能满足用户的时间需求。所以,方案中既提供固定报表满足相对稳定的数据分析需求,同时通过动态分析功能满足用户的即时数据分析的需求,业务专家可根据需要灵活的自定义报(图)表的外观和布局,然后将其保存发布,提供给所需用户查阅和共享。
1.1.4 内容管理技术
以数据仓库为基础存储结构化数据,以文件系统为基础存储各类非结构化数据,以知识库为基础实现元数据和各类数据分析、挖掘模型、业务规则的存储和管理。内容管理成为数据门户的存储与发布平台。
整个内容管理存储分为模型库和发布库,其中发布库又分为公共发布库和私人发布库,以支持个性化数据存储。发布库中存放两类文件,一类是在线执行查