基于决策树算法对大学生消费状况的研究论文(3)

2019-01-26 15:34

信息科学与技术学院学士学位论文

2 什么是数据挖掘

2.1数据挖机的基本概念

“数据挖掘”[2]一词被提出至今有26年之久了,这个概念是在第11届国际人工智能联合学术会上被提出的。数据挖掘这个词被迅速流传开来是从1995年开始的,那时候人们比较重视挖掘出数据中的信息,所以经常会召开一些关于挖掘数据中知识的会议来宣传数据挖掘的重要性。数据库中的知识发现(Knowledge Discovery in Database,KDD)[2]是一个比较浅显易懂的概念,它由计算机学术界的相关人士提出的。从概念的表面意思我们可以知道数据挖掘就是从我们的数据中找到有价值的信息,并且这些信息对我们的生活有帮助。完整的KDD过程包括数据源的建立和管理、从数据源中提取数据、数据预处理、模型建立、模型评估、模型可视化以及模型应用等一系列步骤。虽然数据挖掘概念的提出以及数据挖掘技术的发展到现在有二十多年了,但目前还没有哪个行业能够对数据挖掘的定义给出确切的答案,因此我们发现不同的资料在解释数据挖掘这个词的时候说法是不一样的,但是万变不离其宗。很多人认为将存储在数据库中的数据比喻为“矿石”,数据挖掘则是一个从数据“矿石”中开采知识的“黄金”的过程[3]。

早期的数据挖掘是作为KDD的一个重要环节被提出的,特指模型建立的过程。由于数据源通常以数据库和数据仓库的形式存在,数据挖掘行业普遍认为数据挖掘需要以数据库或者数据仓库作为基础。不同的人对数据挖掘的总结不大一样,大部分数据挖掘学者认为数据挖掘就是一个从我们生活中杂乱无章的数据中找出对我们

作决策有帮助的信息的过程。

2.2数据挖掘的过程

数据挖掘的整个过程其实是非常复杂的,因为在进行挖掘的时候不仅要重复相同的执行过程,而且在执行这些过程的时候需要考虑到各种参数的设置的标准。当我们要求处理的数据所属领域或者应用不相同时,数据处理的过程也需要作出相应

6

信息科学与技术学院学士学位论文

的改变。通常数据挖掘的基本步骤有:1.数据的准备。2.数据的挖掘建模。3.模型的评估。数据挖掘的基本图解如图2-1。

图2-1数据挖掘的基本步骤

那么下面我将对图2-1的各个步骤进行相应的解释:

(1)数据的准备

我们知道数据挖掘将要处理的数据是非常大的,而且这些数据并不能拿来就可以使用,需要处理成适合软件工具使用的格式。因此我们需要对收集的数据进行格式化处理,这样数据挖掘的工作才会比较顺利。

数据准备的目的主要有以下两个方面:一方面需要把多个数据源整合得出数据挖掘所需要的数据,并保证整合后的数据具有易用性、综合性、时效性和高质量等特征。另一方面就是要从数据中找出我们需要分析的目标字段。

数据准备工作的主要内容包括数据的收集、数据的清洗和数据的转换[4]。其中数据的收集方法随着科技的发展收集数据的方法也越来越多了,比如说可以通过纸质问卷的方式收集我们需要的数据;通过网络问卷的方式收集我们需要的数据;通过走访观察的方式收集我们需要的数据;通过各种组织帮助获得我们需要的数据。数据的清理也称数据的清洗。数据的清洗目的主要是为了去除数据中的错误数据或者解决数据不一致问题或者解决对象识别问题。数据的清洗的主要内容是把我们收集的数据中空值给删除掉,或者删除掉那些与我们需要无关的数据。如果我们不对数据的一致性进行检查,那么我们用这些数据进行数据挖掘出的结果准确性可能会下降,以至于挖掘出来的模型可信度将达不到预期的结果。

(2)数据挖掘建模

7

信息科学与技术学院学士学位论文

数据挖掘建模是我们在进行数据挖掘的过程中最重要的任务。我们通过对各个建模算法进行比较,再根据数据挖掘建模的需求选择适当的建模算法和数据挖掘软件。数据建模算法极其复杂,我们需要充分了解各个算法的建模过程,才能选择出比较适合的建立模型的算法。一旦我们把需要的模型建立完成并通过了检测,我们就可以用我们的模型预测那些跟我们建立模型时情形相似的数据的结果。

(3)模型的评估

我们通过数据挖掘得到的模型有些可能对于我们实际需求没有太大的意义,或者说在我们建立的模型在实际应用中没有价值,也有更有可能我们建立的模型不能够准确的反映我们收集的数据它所蕴含的实际意义。因此我们需要对我们数据挖掘建立出的模型进行详细的分析和评估。评估通过收集的数据建立出来的新模型需要做的工作有:判断模式准确率是否很高以及模式是否满足我们进行数据挖掘前的需求。大多数情况我们是通过使用已经准备好的测试样本集对我们挖掘出的模型进行测试并得到模型的准确率。

2.3数据挖掘的相关技术

(1)支撑技术

随着研究者们对数据挖掘技术进行了由浅及深的研究,促使了数据挖掘技术已经融合了人工智能、统计及数据库等多种学科的理论、方法或技术。我们知道还有其它更多的学科中的优秀的技术或者方法也都可以被应用在如今的数据挖掘技术当中。至今我们了解到的数据挖掘中常用的技术非常的多,那些比较成熟的并且常用的数据挖掘技术有决策树、关联规则、聚类分析、神经网络、模糊集与粗糙集[4]等。下面先向大家简介绍与基于决策树算法无关的其他数据挖掘技术。因本文将要使用决策树算法对九江学院的消费状况进行研究,那么我将会在第三章对决策树算法的相关内容进行详细的介绍。

①关联规则

数据挖掘中的关联规则使用的目的是从一大堆的数据中找出满足支持度和置信度最低阈值[4]的全部规则。举个简单的例子,我们有一组关于顾客在超市购买商品的

8

信息科学与技术学院学士学位论文

消费清单。那么从这些消费清单的数据中可以找出不同的规则,比如有一条规则:牛肉->苹果,具体分析消费清单我们可以知道同时购买苹果和牛肉的顾客比例是4/9,而购买苹果的顾客中也购买牛肉的顾客比例为4/4。这两个值中的第一个值表示上述规则的支持度,而另一个值表示上述规则的置信度。 ②聚类分析

物以类聚,人以群分。聚类分析的思想就是把相同的事物按照不同的特征归为不同的类,所以相同特征的事物会被聚集到一起。事物不同的类别被分成不同组或者类,在分组的过程中需要把组之间的差距经量的拉大,而组类的差异要尽量的小。聚类算法不仅被运用到了模式的识别中,还被运用到了图像的处理技术当中,更被运用到了自动控制技术领域,这说明该算法被运用的相当广。我们可以使用聚类分析技术把那些表示不清晰的数据对象更据我们的需要划分成不同的类别,这样做就尽量减少了人类经验对数据分类的干扰程度,这样我们得到的信息才是具有说服力的。

③神经网络

这是一种能够模仿我们人类大脑某些神经的结构和功能的先进技术。人工神经网络是一项新兴的并且非常具有前景的学科,它是由多学科交叉发展而来的结果。人工神经网络技术有非常优秀的自我学习的功能,它能够极好的分布或者联想存储的功能,并且还能够以最快的速度找到最好的答案,所以我们知道它的适应性特别的强。人工神经网络系统通过采集我们给予的样本数据来学习并建立出模型,反复不断的通过样本来学习建立不同的模型,反复的操作构造出神经网络结构。 ④模糊集与粗糙集

我们知道在生活中存在很多概念定义的范围不清晰,这些概念的边界是比较模糊的,因此被称为模糊概念。比如在我们生活当中有这么一些模糊的概念:“高温”、“低温”,“快”、“慢”,“长”“短”等。那么这些模糊的概念放在一起就被称为了模糊集合。最早提出模糊集合这个概念的人是扎德(Zender),美国人。

粗糙集理论主要用于处理应用中那些不确定的或者模糊的知识。由于近些年数

9

信息科学与技术学院学士学位论文

据挖掘工具的开发技术更加的成熟,所以该技术在数据挖掘的任务中被应用的相当的广泛。我们所知道的有加拿大的Regina大学和美国Kanss大学两所大学的研究人员已经根据粗糙集理论开发出了相关的数据挖掘软件。

(2)数据挖掘工具

数据挖掘软件可以根据挖掘的数据类型分为两类,一类是数据挖掘(Mining for Data)工具[5];另一类是文本挖掘(Text Mining)工具。根据数据分析网站KDnuggets对2013年数据挖掘工具使用情况调查得到的数据,让我们知道目前市场上已经存在40多种数据挖掘工具。

随着数据在人们心中的地位进一步提升,以及在大数据时代提取数据中的价值成为人们十分注重的任务,因此数据挖掘技术将会被应用于人们生活的每个方面。数据职业进入全美职业排行榜TOP10,不过在国内数据分析行业也逐渐跟上了时代潮流了,为了适应市场对数据挖掘人才的需求,国内也兴起了一些数据挖掘培训机构。下面我将详细的给大家介绍一些比较受人们欢迎的数据挖掘工具。

Intelligent Miner系列产品包含两个工具,一个叫数据挖掘智能挖掘机(Intelligent Miner for Data),另一个叫文本智能挖掘机(Intelligent Miner for Text)。该系列的工具是由IBM公司研发的,非常的实用。这种工具主要用于对大型数据的各种挖掘,主要包括时间序列聚类,序列模式发现,关联规则发现,增量式挖掘和决策树分类。

①Intelligent Miner for Data

这个软件对需要处理的文件格式要求比较严格,数据必须是结构化的而且存在于普通文件或者数据库中。大多数情况下我们能够使用该软件发现不同的关联规则,并建立我们需要的预测模型和分类模型等。该软件支持的操作系统平台也比较多,主要有OS/390和AIX/SP,AIX,Windows NT等[5]。 ②Intelligent Miner for Text

这个软件的优势在于它具有强大的数据采集功能,因此我们可以非常简单快捷的使用我们收集的数据,比如可以把文本格式的数据作为数据源。这个软件的功能主要包括提取文本的涵义和按主题组织文档,另外还能够识别稳定的语言,将类似

10


基于决策树算法对大学生消费状况的研究论文(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:同城化问卷提纲

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: