数据挖掘
从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合; 研究成果容易转化:
在电子商务中,很多知识发现都可以进行直接应用; 投资收益容易衡量:
所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。 5什么是数据仓库?简述数据仓库的几种常用模型。
6数据挖掘过程中为什么要进行数据预处理?数据预处理有哪些方面?
7请简述数据挖掘过程.
1确定挖掘对象 2准备数据 3建立模型 4数据挖掘 5结果分析 6知识应用
8请叙述元数据的定义及其在数据仓库中的作用。
元数据是关于数据的数据,从元数据的类型与作用来看,元数据实际上是解决何人在何时、何地为了什么原因、怎样使用数据仓库的问题。
1、数据仓库元数据的重要性 (1)为数据仓库服务和DSS分析员及高层决策人员服务提供便利
(2) 解决操作型环境和数据仓库的复杂关系 (3)数据仓库中数据的管理
2、元数据在数据仓库开发期间的使用
数据仓库的开发过程是一个构造工程的过程,它必须提供清晰的文档。该过程产生的元数据主要用于数据仓库的应用管理 (1)元数据的设计需要改变传统数据库设计的观念 (2)突出操作系统的当前元数据
(3)在抽取、求精、和重构过程中,时刻保持从资源到数据仓库之间的映射关系。
3、元数据在数据源抽取中的作用
数据源块的元数据用于数据库的定义,以及向数据仓库及其定义提供从办公系统和外部来源中抽取的数据条目。元数据对多个来源的数据集成发挥着关键作用。
(1)资源领域的确定 (2)跟踪历史数据结构变化的过程 (3)属性到属性的映射 (4)属性转换
4、元数据在数据求精与重构工程上的作用
数据求精与重构工程负责净化资源中的数据、增加资源戳和时间戳、将数据转换为符合数据仓库的数据格式、预算概括和衍生数据的值。
(1)集成与分割 (2)概括与聚集 (3)预算与推导 (4) 转换与再映像 四、算法题(共20分)
1.Apriori算法是从事务数据库中挖掘单维布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。
(1)Aprior算法包括哪两个基本步骤 (2)对下图中所示的事务数据记录D,(|D|=4),请用图示与说明解释如何使用Apriori算法寻找D中的频繁项集。(假设最小事务支持计数为2) TID
项ID的列表 T100 A,C,D
T200