数据挖掘简答题

2020-06-18 20:50

数据挖掘题目整理问答题

1. 在数据清洗中，处理缺失值除了忽视元组之外，其他还有什么方法？

2. 试概述OLAP与OLTP之间的区别？

3. 数据质量一般包括哪些因素，试解释这些因素。

4. 数据仓库模型有哪些，回答他们各自特性。

5. 什么是数据规约？数据规约的策略主要有哪些？

6. 数据仓库有哪些关键特性？

综合题

1.在文件Pollution.txt的第二至第七列存放着全国各省的污染数据，请完成下面的工作

（1）介绍层次聚类的方法

（2）利用R语言完成上述方法的层次聚类的如图所示的聚类图解，在图中，横坐标是各省名称。

2. (1)分类决策树建立过程中属性的选择经常采用的方法有信息增益方法，请解释该方法原理。

（2）在数据集iris中存放着3种不同的鸢尾花的50个样本数据，包括花萼长

度，花萼宽度，花瓣长度，花瓣宽度和种类（species）等五个域值。请建立和显示该数据的决策树（其中70%的数据建立，其他30%用于训练，参数设置用默认值）

3.（1）什么是随机森林？它有什么作用。

（2）在数据集iris中存放着3种不同的鸢尾花的50个样本数据，包括花萼长

度，花萼宽度，花瓣长度，花瓣宽度和种类（species）等五个域值。请建立一个随机森林，并显示误差率。（其中70%的数据建立，其他30%用于训练，参数设置用默认值）

4．（1）什么是局部离群点？比较它们之间的异同

（2）在数据集iris中存放着3种不同的鸢尾花的50个样本数据，包括花萼长

度，花萼宽度，花瓣长度，花瓣宽度和种类（species）等五个域值。请检测其中的局部离群点并绘制离群点两个主成分的双标图。

5（1）什么是离群点？离群点的检测有何意义？举例说明。

（3）分别产生100个随机数存放到x和y，然后检测他们中的离群点，并绘图

显示，其中离群点用红色显示。

6在数据集iris中存放着3种不同的鸢尾花的50个样本数据，包括花萼长度，花萼宽度，花瓣长度，花瓣宽度和种类（species）等五个域值，请完成下面工作：

（1）介绍基于密度的聚类的方法；

（2）利用R语言完成上述方法的聚类并绘制聚类图。（设eps=0.42,Minpts=51.）

数据挖掘简答题.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！