数据挖掘系统的设计与实现(毕业论文)(3)

2019-05-17 09:57

武汉工程大学本科毕业设计

图1. 4知识挖掘全过程示意描述

如图1. 4所示,整个知识挖掘(KDD)过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有: ?数据清洗(data clearning),其作用就是清除数据噪声和与挖掘主题明显无关的数

据; ?数据集成(data integration),其作用就是将来自多数据源中的相关数据组合到一

起; ?数据转换(data transformation),其作用就是将数据转换为易于进行数据挖掘的数

据存储形式; ?数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能方法

挖掘数据模式或规律知识; ?模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting

measures)从挖掘结果筛选出有意义的模式知识; ?知识表示(knowledge presentation),其作用就是利用可视化和知识表达技术,向

用户展示所挖掘出的相关知识。

尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但由于目前工业界、媒体、数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此也可以广义地使用“数据挖掘”一词来表示整个知识挖掘过程,即数据挖掘就是一个从数据库、数据仓库

6

武汉工程大学本科毕业设计

或其它信息资源库的大量数据中发掘出有趣的知识。

图1. 5数据挖掘系统总体结构描述

基于图1. 4 所示的数据挖掘过程,一个典型的数据挖掘系统(如图1. 5所示)主要包含以下主要部件: ?数据库、数据仓库或其它信息库,它表示数据挖掘对象是由一个(或组)数据库、数

据仓库、数据表单或其它信息数据库组成。通常需要使用数据 清洗和数据集成操作,对这些数据对象进行初步的处理; ?数据库或数据仓库服务器,这类服务器负责根据用户的数据挖掘请求,读取相关的数

据; ?知识库,此处存放数据挖掘所需要的领域知识,这些知识将用于指导数据挖掘的搜索

过程,或者用于帮助对挖掘结果的评估。挖掘算法中所使用的用户定义的阈值就是最简单

7

武汉工程大学本科毕业设计

的领域知识; ?数据挖掘引擎,这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模块,以

便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能; ?模式评估模块,该模块可根据趣味标准(interestingness measures),协助数据挖

掘模块聚焦挖掘更有意义的模式知识。当然该模块能否与数据挖掘模块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。显然若数据挖掘算法能够与知识评估方法有机结合将有助提高其数据挖掘的效率; ?可视化用户界面,该模块帮助用户与数据挖掘系统本身进行沟通交流。一方面用户通

过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供挖掘搜所需要的相关知识;另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间结果;此外该模块也可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘出的模式知识,以及以多种形式展示挖掘出的模式知识。

从数据仓库的角度来看,数据挖掘可以被认为是在线分析处理(OLAP)的高级阶段,但是基于多种数据理解先进技术的数据挖掘,其数据分析能力要远超过以数据汇总为主的数据仓库在线分析处理功能。

目前市场有许多所谓“数据挖掘系统”,实际上它们仅仅是一个基于统计的数据分析工具,或一个机器学习工具。数据挖掘有机结合了来自多学科技术,其中包括:数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等,这里我们强调数据挖掘所处理的是大规模数据,且其挖掘算法应是高效的和可扩展的。通过数据挖掘,可从数据库中挖掘出有意义的知识、规律,或更高层次的信息,并可以从多个角度对其进行浏览察看。所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处理等等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一,也是信息工业中最富有前景的数据库应用领域之一。 1.2.1数据挖掘深入

KDD就是利用机器学习的方法从数据库中提取有价值知识的过程,它是数据库技术和机器学习两个学科的交叉领域。数据库技术侧重于对数据存储处理的高效率方法的研究,而机器学习则侧重于设计新的方法从数据中提取知识。KDD利用数据库技术对数据进行前端处理,而利用机器学习方法则从处理后的数据中提取有用的知识。当然KDD与其他学科也有很强的联系,如统计学、数学和可视化技术等。

既然KDD 和机器学习都是从数据中提取知识,那么两者有什么区别呢?KDD是从现实

8

武汉工程大学本科毕业设计

世界中存在的一些具体数据中提取知识,这些数据在KDD出现之前早已存在;而机器学习所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中也许毫无意义。由于KDD使用的数据来自于实际的数据库,而且所要处理的数据量可能很大,因此KDD中的学习算法的效率和可扩充性就显得尤为重要;此外,KDD所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证,如何将这些数据加工成学习算法可以接收的数据?也是数据挖掘研究与开发时需要进行深入研究的问题;再者,KDD可以利用目前数据库技术所取得的研究成果来加快学习过程,提高学习的效率。最后一点就是,由于KDD 处理的数据来自于实际的数据库,而与这些数据库数据有关的还有其他一些背景知识,这些背景知识的合理运用也会提高学习算法的效率。

在日常的数据库操作中,人们经常使用的是从数据库中抽取数据以生成一定格式的报表,那么KDD与数据库报表工具有什么区别呢?数据库报表制作工具是将数据库中的某些数据抽取出来,经过一些数学运算,最终以特定的格式呈现给用户,而KDD则是对数据背后隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。报表工具也许能够给出上学期考试未通过及成绩优秀的学生的有关情况。但它不能找出那些考试未通过及成绩优秀的学生在哪些方面有些什么不同的特征,而数据挖掘通过对相关数据的分析,以发现影响学生成绩的各种因素,就可以给出两者之间的差别。

目前出现了很多基于数据仓库的OLAP的产品,它可以对数据进行多维分析,进行数据的drill down、roll up操作。那么同样作为数据分析方法的数据挖掘与OLAP有何区别呢?OLAP是由用户驱动的,一般是由分析人员预先设定一些假设,然后使用OLAP工具去帮助验证这些假设,它提供了可使分析人员很方便地进行数据分析的手段;而数据挖掘则是通过对数据的分析来自动产生一些假设,人们可以在这些假设的基础上更有效地进行决策。

这里我们通过一个例子说明两者的区别,在进行银行信用风险调查时,如果使用OLAP,分析人员必须首先设定一些假设条件,如高负债低收入的人有信用风险,分析人员可以利用OLAP,通过对有关数据进行分析来验证或推翻这个假设,而对于使用数据挖掘来说,由其找出对银行信用风险有影响的因素,而且还可能发现按照常规思维认为不可能的一些影响因素,如年龄地区或者某些因素的某种组合。 1.3数据挖掘功能

利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出

9

武汉工程大学本科毕业设计

多种层次(抽象水平)的模式知识。数据挖掘系统还应容许用户指导挖掘搜索有价值的模式知识。数据挖掘功能以及所能够挖掘的知识类型说明描述如下。 1.3.1概念描述:定性与对比

一个概念常常是对一个包含大量数据的数据集合总体情况的概述。如对一个商店所售电脑基本情况的概述总结就会获得所售电脑基本情况的一个整体概念。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。获得概念描述的方法主要有以下两种:

(1)利用更为广义的属性,对所分析数据进行概要总结;其中被分析的数据就称为目标数据集;

(2)对两类所分析的数据特点进行对比并对对比结果给出概要性总结;而其中两类被分析的数据集分别被称为目标数据集和对比数据集。

数据概要总结就是利用数据描述属性中更广义的(属性)内容对其进行归纳描述。其中被分析的数据,常常可以通过简单的数据库查询来获得。如:对我校的讲师情况进行概要总结(给出概念描述)。数据概要总结通常都用更广义的关系表或特征描述规则来加以输出表示。 1.3.2关联分析

关联分析就是从给定的数据集发现频繁出现的项集模式知识。关联分析广泛用于市场营销、事务分析等应用领域。 1.3.3分类与预测

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。

分类挖掘所获的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有:分类规则、决策树、数学公式和神经网络。决策树是一个具有层次结构的树状结构,如图1.7所示就是一个决策树。决策树可以很容易地转换为分类规则。

分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于6级、_级还是)级。但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测。尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用预测来表示对连续数值的预测;而使用分类来表示对有限离散值的预测。

10


数据挖掘系统的设计与实现(毕业论文)(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:何雨春同志在全市党建和群团工作会议上的讲话

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: