数据挖掘考试题库(3)

2020-03-26 19:21

采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。

⑤ 使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检

索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。

题型:填空(20空)、判断(20分)、简答(5个:预处理方法、决策树、朴素贝叶斯过程、其他一些知识内容)、大题(算法:关联分析、分类、决策树、ID3算法、贝叶斯方法、A神经网络、聚类回归占得比较小)

概述

一、数据挖掘是一个多学科领域,具体涉及到哪些相关学科?数据库及相关领域知识。 二、什么是数据挖掘,产生的背景,典型的数据挖掘系统的主要成分?

数据挖掘定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。

典型的数据挖掘系统的主要成分:1.数据库,数据仓库或其他信息库;2.数据库或数据仓库服务器:3.知识库;4.数据挖掘引擎;5.模式评估模块;6.图形用户界面。 三、数据挖掘的功能有哪些?

数据挖掘功能-可以挖掘什么类型的模式。数据挖掘任务:描述和预测。 描述性挖掘任务刻划数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断。

数据挖掘的功能——用于指定数据挖掘任务中要找的模式类型。其模式类型介绍如下:

(1)、概念/类描述:特征化和区分。用汇总的、简洁的、精确的方式描述每个类和概念,称这种描述为类/概念描述,通过三种方式得到:1)数据特征化 2)数据区分 3)数据特征化和比较。

(2)关联分析:发现规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。

关联规则的含义为:满足X中条件的数据库元组多半也满足Y中条件。包括多维关联规则和单维关联规则。

(3)分类和预测:分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。分类是找出描述并区分数据类或概念的模型或函数,以便能用模型预测类标记未知的对象类。如:可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);也可建立一个预测模型以利用顾客收入与职业(参数)预测其可能用于购买计算机设备的支出大小。 (4)聚类分析:它考虑的是数据对象,将数据对象根据一定的规则比如,最大化类内的相似性,最小化类间的相似性进行分组或聚类。同类相聚,异类相离 (5)孤立点分析:有些对象与数据的一般行为或模式不一致,称这些数据对象是孤立点。

(6)演变分析(时序分析):描述行为随时间变化的数据对象的规律或趋势,并对其建模,比如,股票的演变规律。 四、数据挖掘的性能问题包括哪3个方面? 五、知识发现包括哪些过程?

知识发现的过程:1)数据清理(消除噪声或不一致数据)2)数据集成(多种数据源可以组合在一起)3)数据选择(从数据库中检索与分析任务相关的数据)4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5)数据挖掘(基本步骤,使用智能方法提取数据模式)6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 六、数据、信息、知识之间的区别和联系

数据:就是能够被计算机处理的任何事物(事实、数字、文本等)

数据=事实的记录

操作和交易数据:如销售、价格、库存、薪水册等 非操作的数据:如工业销售、预测数据、宏观经济数据

元数据(Meta data:描述数据自身的数据,如逻辑数据库设计或数据字典定义

信息:数据提供的模式、关联、联系等信息。

信息是对数据的提炼;信息=数据+意义

如:对于零售终端的分析能够获得什么产品在什么时候卖出的信息。 知识:

从信息中提取出有关历史模式、一般规律、和未来趋势的知识

知识是让从定量到定性的过程得以实现的、抽象的、逻辑的东西。知识是需要通过信息使用归纳、演绎得方法得到。知识只有在经过广泛深入地实践检验,被人消化吸收,并成为了个人的信念和判断取向之后才能成为知识,这一点使得知识和信息往往混杂在一起。

如:通过分析超市的销售汇总信息,来提供用户购买行为的知识,从而可以知道哪种促销方式是最有效的。

数据仓库

一、数据仓库是一个 面向主题的、集成的、非易失的、时变的有组织的数据集合。 二、OLAP的典型操作有哪些?切片切块、上卷下钻、旋转转轴

三、多维数据模型通常采用哪三种模式?星型模式、雪花模式、事实星座 四、冰山立方体的相关概念

仅计算满足最小支持度阈值的单元,这种部分物化的单元称为冰山立方体。HAVING COUNT(*) >=minsup为冰山条件

Motivation:

? 由于立方体单元在多维空间中的分布常常是稀疏的,因此大量的立方

体空间可能被大量具有很低度量值得单元占据。

? 仅需物化数据立方体单元的一小部分——那些满足阈值的单元 ? 减轻计算数据立方体中不重要的聚集单元的负担。

五、数据仓库和数据库有什么区别和联系?

1、数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限 操作型系统含有“当前值”数据,时间期限一般是60-90天;数据仓库从历史的角度提供信息,其中的数据仅仅是一系列某一时刻生成的复杂的快照,时间期限通常是5-10年

2、 数据仓库中的键码结构

数据仓库中的关键结构,隐式或显式地包含时间元素 操作型系统的键码结构可能不包括时间元素 3、 反应时间变化的

4、数据仓库是非易失的

数据仓库总是物理地分别存放数据 数据仓库中不进行操作型环境中的数据更新 数据仓库不需要事务处理、恢复和并发控制机制

数据仓库通常只需要两种数据访问:数据的初始化装入和数据访问 4、 相对稳定的

数据预处理

一、数据预处理包括哪些过程——数据清理、数据集成、数据变换和数据规约 二、对于每种预处理过程都有哪些方法,处理的思想是怎么样的,比如针对缺失值有哪些方法?针对数据规范化有哪些方法?数据清理中如何处理噪声数据等。 数据清理:就是用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。其基本方法为: (1)空缺值

1)忽略元组 ,2)人工填写空缺值 3)使用一个全局常量填充空缺值,比如用一个常数(Unknown)来替换所有空缺的值。4)使用属性的平均值填充空缺值 5)使用与给定元组属同类的所有样本的平均值 6)使用最可能的值填充空缺值,可以使用回归,或判定树确定推理获得

(2)噪声数据:一个测量变量中的随机错误或偏差。可以用以下方法

1)分箱 包括按箱平均值平滑,即就是将属性值根据等深,例如每箱3个进行分箱,然后用这三个值的平均值代替箱中的值。类似有按箱均值平滑,按箱边界平滑;

Price的排序后数据 (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34


数据挖掘考试题库(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2013年6月国际商务英语等级考试(初级)试卷及答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: