表2.3数据仓库与数据集市的区别
比较项目
数据来源
范围
主题
数据粒度
历史数据
优化
索引
3.数据粒度 数据仓库 遗留系统、外部数据 企业级 企业主题 最细粒度 大量的历史数据 处理海量数据 数据探索 高度索引 数据集市 数据仓库 部门级或工作组级 部门或特殊的分析主题 较粗的粒度 适度的历史数据 便于访问和分析 快速查询 高度索引
数据粒度是指数据仓库中保存数据的细化或综合程度[6]。数据仓库中包含大量数据表,这些数据表中的数据以什么粒度来存储,会对信息系统的多方面产生影响。在做 数据仓库设计时,设计者确定以数据的什么层次作为粒度的划分标准,将直接影响到数据仓库中数据的存储量及查询质量,并进一步影响到系统是否能满足最终用户的分析需求。数据的细化程度越高,粒度越小,数据的运算也需要越多的时间;细化程度越低,粒度越大,数据的运算速度也越快。
在设计数据粒度时,通常需重点考虑以下因素:(1)要接受的分析类型、可接受的数据最低粒度和能存储的数据量;(2)粒度的层次定义越高,就越不能在该仓库中进行更细致的分析;(3)在同一模式中使用多重粒度;(4)如果存储资源有一定的限制,就只能采用较 高粒度的数据粒度划分策;(5)粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷;(6)数据粒度划分策略一定要保证数据的粒度 确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。通常数据仓库会采用多重粒度的设计方案,例如三重粒度方案(按年汇总、按月汇总、详细数据),根据实际需要选择不同的粒度级别,能够得到最优的运行效率。
4.元数据
元数据是关于数据的数据。在数据仓库系统中,元数据是描述数据仓库中数据的数据,由于数据仓库中的数据两过于庞大,可以利用元数据帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据按照用途可以分为技术元数据和业务元数据两类[7]。
技术元数据是存储关于数据仓库系统技术细节的数据,主要包括以下信息:
(1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构的定义,以及数据集市的内容和位置;(2)业务系统、数据仓库和数据集市的体系结构和模式;
(3)汇总用的算法,包括维和度量的定义算法,数据的聚集、汇总、预定义的