信息科学与技术学院学士学位论文
的文档分组,在一组文档中找寻显著的主题,并通过强大、灵活的查询去搜索功能。该软件支持的系统平台也非常的多。 ③Quest
Quest是由IBM公司的Almaden研究中心开发出来的一款用于发现关联规则和序列模式,对数据进行聚类或者挖掘出决策树的数据挖掘工具。由于IBM公司花费大量时间和金钱对数据挖掘软件进行研究,所以该软件中集成的各种挖掘算法均可用于大型的数据库,而且这个软件设计了相应的并行算法,极大的提高了挖掘数据的效率。 ④Clementine
Clementine是SPSS公司开发的挖掘产品。由于IBM公司在2009年收购了SPSS公司下的统计分析软件,然后对Clementine数据挖掘软件进行了一定程度的修改,最后把Clementine更名为IBM SPSS Modeler并把它推向了全球市场。Clementine软件开发者们充分的优化了使用软件时人与软件的交互模式,使得我们在使用该软件的时候十分的简易。该软件还将挖掘数据常用的方法与挖掘应用的实际样例完美的集合在软件当中,在大多数情况下这个数据挖掘工具是用于解决数据挖掘问题常用的挖掘工具。该软件界面友好操作简捷,Clementine的功能包括以下内容: a.不仅仅支持预测和分类和关联规则的挖掘,还提供对决策树或者神经网络的挖掘,甚至支持二次聚类、线性回归、快速聚类。
b.具有与用户交互的可视化界面,操作简单,不需要编程来完成。
c.导入数据的功能十分的丰富,不仅可以连接普通文件还可以直接使用数据库中的数据。
d.用户对数据流和数据项目的管理也十分的方便简单,显得更加具有人性化特征。
e.提供CEMI(clementine external module interface)技术,可以把其他模型、数据准备、结果展示等功能集成到软件中。 ⑤Enterprise Mine
11
信息科学与技术学院学士学位论文
Enterprise Miner也是一款运用范围十分广的数据挖掘工具,该工具由SAS公司精心研发出来的。该工具集成的数据分析工具非常丰富,拥有十分方便的决策树浏览工具。该软件具有很多显著的特色,当之无愧的是它非常优秀的实现了数据挖掘系统的可视化,使得挖掘的各个过程几乎都可视化。 ⑥其它工具
DBMiner 由加拿大的一位名为Simon Frasterde的大学韩家教授领导的研究组开发出来的。DBMiner的主要优势在于其实现了与关系数据库的平滑集成,它能够通过一种交互式的类SQL语言即数据挖掘查询语言DMQL来快速的完成多任务的数据挖掘任务。它涵盖了的数据挖掘技术十分的丰富。
MinSet是由美国的一家数据挖掘软件设计公司联合美国斯坦福大学进行开发的,软件主要注重于数据挖掘系统在执行时的效率优化,因此该软件具备多任务的功能。同时该软件具备一些常用的数据挖掘技术,比如集成了分类器、回归模式挖掘、关联规则发现和聚类等多种数据挖掘方法,并且它支持多种关系数据库,因此该软件不仅可以直接从Oracle数据库中获取数据,还可以从INFORMIX数据库或者Sybase数据库中读取数据。当然为了方便,该软件还支持使用SQL命令对数据库中数据进行查询。
Weka是基于Java开发的免费的数据挖掘工具,且有非常强大的挖掘功能,提供四种界面,适合不同层次用户的需求。
Darwin是由Oracle公司精心研发的数据挖掘工具,该软件突出的特点是能够直接在数据库上进行挖掘,并且支持不同种类的数据源。该软件提供数据挖掘技术有神经网络、分类和回归树、K-最近邻居、遗传算法、聚类和贝叶斯算法及可视化功能。同Darwin挖掘出来的模型能够以多种计算机代码的形式导出,这样方便我们把模型集成到其他应用软件当中,可想而知这个功能非常的实用。
2.4选定本课题使用的软件
本文研究的课题是“基于决策树算法对九江学院大学生消费状况的研究”,因此需要选择集成了多种基决策树算法的优秀的数据挖掘软件。在本章第三节我已经
12
信息科学与技术学院学士学位论文
对市场上一些使用比较广泛的数据挖掘工具进行了简单的介绍。我们知道要做数据挖掘就必须有相应的工具,如果只靠传统的自我编程去实现,将会局限于时间和资源不足的问题上。而且通过自我编程得到的数据挖掘工具不一定比商业的数据挖掘工具强。时至今日,整个世界对数据挖掘软件的研发已经达到了盛行至极的状态,市场上出现了越来越多的数据挖掘工具,并且这些软件的人机交互体验非常棒,软件的功能也十分的强大。
那么我们该如何选择出一个适用的工具用于本文课题对消费数据的研究呢?通过总结我们知道选择数据挖掘工具需要根据以下几个方面进行比较:
(1)首先我们需要了解数据挖掘工具的种类,数据挖掘工具按挖掘的内容可以分为数据挖掘工具和文本挖掘工具。当然本次课题所采集的数据有明确的字段定义并且属于普通的文件,所以本次课题选用的是数据挖掘工具。
(2)按数据挖掘需求可以把数据挖掘工具分为企业型挖掘工具和小型挖掘工具。大型数据挖掘工具因为有强大的技术支持,所以它的功能应该会更加健全,并且在使用上遇到的软件技术问题也很容易找到解决的方法。而小型的数据挖掘工具着重点与企业型工具不同。小型数据挖掘工具主要针对的是低端低消费的用户,并为特定的需求提供特定的解决方案。那么本次课题使用的决策树算法,考虑到小型数据挖掘工具用起来产生的问题很多是要收费才能解决。所以,根据这一点我偏向于选择企业级的数据挖掘工具。
(3)关于是长期使用还是短期的使用,在本次课题结束后,我将会继续对数据挖掘技术进行更深入的学习,所以我会选择能够长期使用的工具。这样的数据挖掘工具不但用起来方便,而且维护升级也很方便。
(4)根据数据挖掘经验水平来选择数据挖掘软件,由于研究该课题是我第一次 接触数据挖掘方面的知识。平时自己也只能通过网络视频或者图书对数据挖掘技术进行学习。所以我需要选择数据挖掘工具软件的界面简洁,操作简单的,而且易于学习的软件。
(5)根据我们要挖掘的数据的状态来选择数据挖掘工具。实际上就是对现有的
13
信息科学与技术学院学士学位论文
数据进行评估,如果我有目的的去挖掘数据,但是目前的数据并不一定能满足挖掘工具的对数据格式的要求。在实际应用中软件是需要付费的,实际工作中我们需要确保经济资源被充分的利用,所以要确定什么时候才合适购买数据挖掘工具。此条件对我选择软件意义不大。
(6)在评估数据挖掘工具的时候,我们还需要结合自身或者公司的财务预算来决定。此条件暂时对我选择软件意义不是很大,一般我们会选择免费的。 当然除了根据上面六点来评估该选择哪个数据挖掘工具,实际本次课题选择数据分析软件还得根据我们的实际情况来决定。现在市面上数据挖掘的工具非常的多,因此在还未了解这些工具之前,在图书馆找了与数据分析软件有关的资料,并发现关于SPSS Clementine的书籍相对更多。通过与其它数据分析软件的比较,发现由SPSS开发的这款数据挖掘软件界面相当的友好,而且国内有关这个软件的学习资料也相对更多。不过这是一款需要付费才能使用的企业型的数据挖掘工具,但是它性能相对更稳定。通过互联网我们可以找到旧版本的注册证书,本文使用的是IBM SPSS Modeler14.1版本的注册证书。SPSS Clementine比较适合初学者使用。由于被IBM收购了,后续版本更名为IBM SPSS Modeler。在众多的数据挖掘软件当中Clementine以其独特的优势在众多产品中脱颖而出。 Clementine(IBM SPSS Modeler)最早属于英国ISL(Internet solution Limited)公司的产品,从1992年开始研发,1994年V1.0版本发布,后期版本更新速度很快。在2009年SPSS被IBM收购了,然后Clementine更名为IBM SPSS Modeler。该产品是一款以图形化“语法”为用户界面的数据挖掘软件。该软件拥有十分丰富的算法,操作简单,研究结果通俗易懂。
IBM SPASS Modeler的操作数据挖掘过程是基于数据挖掘的流程建立起来的。该
软件对数据的分析有以下几个过程:从数据收集开始,到数据展示和预处理,然后再到模型建立,最后到模型评价等几个过程。IBM SPASS Modeler在应用中是基于数据流的,那么这些过程在就相当于数据流中不同的节点,数据则会按照节点排列的顺序有序的流动。而该软件则将这些过程以图形的方式形象的展示在用户眼前,十分清楚的展示了数据分析的过程。如图2-2所示为IBM SPASS Modeler 14.1版本软件
14
信息科学与技术学院学士学位论文
操的主窗口。
图2-2 IBM SPASS Modeler 14.1版本主窗口
数据流区域:该区域位于IBM SPASS Modeler 14.1主窗口的中间部分,建立或者修改数据流的主要操作区域。
节点工具箱窗口:位于主窗口的下方,该小窗口得不同选项卡存放着不同类别的节点,分别有收藏、数据源、记录选项、字段选项、图形、建模、输出、导出和文本挖掘类的节点。
流管理窗口:流管理窗口是用来管理数据流用的,它主要管理流的各个节点的添加与删除,在主窗口的右侧上方。
项目管理窗口:这个窗口的重要作用是通过它可以使我们管理数据流的工作更加的方便快捷,它位于主窗口的右侧下方。
我们知道在实际挖掘的过程中,我们需要和IBM SPASS Modeler软件进行交互,那么在交互的过程中我们是在管理数据流,而我们管理的数据流又是又各个节点组成的,所以我们主要管理的是各个节点。这些任务主要包括: 第一,选择并管理节点。
第二,建立并调节各个相邻节点之间的连接。 第三,设置节点的参数。
15