第2章 数据仓库及相关技术
2.1 数据库与数据仓库
数据库系统是一个实际可运行的软件系统,是存储介质、处理对象和管理系统的集合体,其目的是为存储、维护和应用系统提供数据[1]。它通常由软件、数据库和数据管理员组成。数据库的出现使得计算机应用从科学计算转向数据处理,在各行各业中得到了巨大的发展。
随着数据库技术的广泛应用,数据库在企业的运营中越来越重要。企业在构建自身的决策支持系统时,对数据的需求是多方面的,除了建立企业级的数据库外,通常还要建立部门级的数据库。为了提高数据的访问效率,各部门通常将相关数据抽取出来建立部门级的数据库,这种不加控制的连续抽取最终将导致系统内的数据之间形成错综复杂的网状结构,使得在面对同一问题分析时不同节点甚至会产生截然相反的结果,使决策者无从下手。
当前的数据处理大致可以划分为操作型处理和分析型处理两类[2]。操作型处理一般针对的是具体的业务,通过对一个或一组数据的查询和修改,为特定应用进行服务,分析型处理一般针对某个主题通过综合大量历史数据综合处理,服务于决策支持。表2.1是两种不同类型的数据的比较。
表2.1操作型数据与分析型数据之间的区别
操作型数据的特点
细节的
表示业务处理的动态发展
可更新的
操作需求事先知道
对性能要求高
一个时刻操作一个单元
事物驱动
面向应用
一次操作数据量小
支持日常操作
分析型数据的特点 综合的或可提炼的 表示已经处理业务的静态情况 不更新的 操作需求事先不知道 对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大 支持管理需求
数据库技术处理的是单一的数据资源,即以数据库为中心,进行事物处理、决策分析等各种类型的数据处理工作[3]。但随着应用的深入,人们逐渐感到数据