数据挖掘试卷一(4)

2020-12-24 23:17

数据挖掘

简答题

1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分)

答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分)

使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分)

使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(2分)

2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。(6分)

答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:

(1)提高两个系统的性能

操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。 (2)两者有着不同的功能

操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。 (3)两者有着不同的数据

数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)

答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:

逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分) 层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分) 层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。(2分)

4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分) 答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括: 电子商务提供海量的数据: “点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;

丰富的记录信息:

良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息; 干净的数据:


数据挖掘试卷一(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:环保工程技术规范-工程设计文件要求(编制说明)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: