信息科学与技术学院学士学位论文
1 绪论
1.1课题研究的背景
自从20世纪80年代开始,计算机数据库技术越来越成熟,各行业也越来越重视对自身数据的收集与处理。因此许多行业通过不同的方式获得的数据量惊人。由于人们逐渐有了提取数据中的信息的意识,因此数据挖掘技术发展的越来越成熟。国外非常重视数据中存在的价值,因此不乏数据挖掘的案例。随着互联网技术的发展,基于互联网平台进行销售的商城、书店、营业厅关于web点击流量的存储容量的大小已经到达了GB级[1]。这些数据中潜藏着很多十分有用的信息。例如国外某连锁超市就是通过对大量数据的分析发现顾客购买尿布后再去购买啤酒的关联性非常的大,然后根据这条关联规则,把啤酒喝尿布放相邻位置销售,结果销量相比没有放在一起销售前有了显著的上升。如今经济市场的竞争十分的激烈,为了能够更深入的了解市场及自身的状况,也为了能够为企业的发展作出更好的决策,许多企业的管理者开始寻求能够提高企业经济效益以及确保企业长远发展的方法。有许多企业管理者会使用优秀的数据挖掘工具分析企业数据,并从中得到对管理企业有帮助的重要信息。因此,人们逐渐把数据挖掘技术运用到商业领域,并且引发了一系列管理、营销策略的变化。比如,在国外使用数据挖掘技术帮助从政的案例:2012年美国总统奥巴马成功连任后,有媒体报道,奥巴马投入了巨额费用使用数据挖掘技术,有效锁定目标选民后即时调整广告投放策略,因此这极大的帮助了奥巴马赢得选举。而在国内数据挖掘技术发展比国外更晚,但是发展十分迅猛,研究消费数据方面的案例十分的丰富。大部分对数据挖掘技术研究重点偏向于商业应用方面。大学生是比较特殊的消费群体,其产生的海量消费数据中蕴含很多有用的信息,这些通过数据挖掘获取的信息对商家提高自己的经济效益有很大的帮助。在校大学生在生活中所产生数据量不容小视。我们知道校园管理人员的日常工作是十分繁琐与辛苦的,如果能从与学生生活息息相关的消费数据中分析得出大量的信息,并且这些
1
信息科学与技术学院学士学位论文
信息能够有助于学生的学习和生活以及老师的教学与管理,那么这将更加能够说明数据挖掘的价值与意义。
1.2选题的意义
如今国内大学入学率越来越高,随之而来的是学校对于培养学生的良好的消费习惯和价值观的任务变得举足轻重。我们的消费不仅能够影响我们的学习,还能够影响我们的人生观。研究人员对大学生消费的研究并不多,而且使用数据挖掘技术来分析大学生消费行为的就更屈指可数了。以往对大学生消费调查与研究所得的结果大部分比较浅显。在大数据时代我们可以使用数据挖掘技术从海量的消费数据中研究当今大学生的消费行为,并能够从中得到便于学校更好的教育莘莘学子的决策树或者规则集。比如,我们可以找到到九江学院大学生在课余时间有意愿做兼职或者勤工助学的消费特征,根据这些消费特征我们可以更准确的判断哪些学生会有兼职或勤工助学的趋势,这样学校就可以为那些预测结果为极有可能去兼职的学生做相应的引导或者帮助;我们也可以从消费数据中挖掘出判断学生电话消费档次的决策树,通过不同的规则,电信运营商可以推出更贴合学生需求的话费套餐;我们还可以从消费数据中挖掘出能够判断学生能否申请到贫困补助的决策树。每个学校都有本校学生申请贫困补助的评选标准,校园管理者可以使用通过数据挖掘学生的各种数据而得到的关于是否能够成功申请贫困补助的决策树,作为评选贫困生的参考。 本次课题对我的挑战非常的大。我来自信息管理与信息系统专业,平时对数据挖掘这门技术了解比较少。如今获知的一些关于大数据的信息让我更清楚的认识到我们生活中的数据中蕴含巨大的价值,以及更深刻的认识到在大数据时代数据挖掘技术的重要性。而且我发现《The Big Talk》栏目就有好几期节目涉及到大数据的应用。2015年3月15号,马云在德国汉诺威国际博览会开场演讲中提到“未来的世界,我们将不再由石油驱动,而是由数据驱动,有一种东西将在机器中流动,那就是数据...”。我最终选择了这个课题是因为我认为这个课题将会让我更多的了解数据挖掘技术。选定课题后,在课余时间,我会向图书馆借阅关于数据挖掘的书籍,平时也会通过网络平台了解关于数据挖掘方面的知识,同时关注一些有关数据挖掘的论
2
信息科学与技术学院学士学位论文
坛或者QQ群。只要一有疑惑,我会立即向那些对数据挖掘技术有更深入了解的人寻求帮助。选择这个课题不仅仅是因为我个人的兴趣,更多在于我的导师对数据挖掘这门技术的价值的远见卓识。我非常希望自己通过该课题能够对数据挖掘有深刻的理解,并且能通过这次研究获得让自己和导师满意的研究成果。
1.3决策树挖掘的研究现状
决策树算法被提出至今有一个多世纪的时间了,算法的种类特别的多,但是大部分算法存在局限性。比如,只能处理较小的数据集而且被处理的数据集必须一直存储在内存当中。如今我们不难发现大部分决策树算法面对当今存放在数据库或者数据仓库中的海量数据有种无能为力的感觉,种种迹象让我们知道传统的决策树算法不管在预测精度方面还是运算效率方面都已经跟不上市场对数据挖掘算法需求的步伐了。针对这些的问题,不少研究算法的人员花了非常大的心血去改进算法或者创造新的算法,并主要从处理数据集的功能方面对算法进行了改进,使得算法能够适用于大数据集的挖掘。在我们身边有许多数据挖掘的工具,其中已经集成了决策树算法的工具非常的多,例如:SAS、IBM Intrlligent Miner、MSMiner、Clementine等用于分析数据的产品,并且这些数据挖掘工具被广泛的运用于商业市场。虽然各种与决策树相关的算法被广泛的应用,但是还是存在很多问题,比如,如何去管理非常大的数据集;如何进一步提高预测的精度;如何更完美的处理更复杂的数据集。
国外在较早的年代就开始了对数据挖掘这门技术的研究。在美国的一所国立医学图书馆中就有与数据挖掘的论文成全上万篇。国外研究出的决策树算法有CART、C4.5、ID3、SPRINT、CHAID等。
我国比发达国家更晚进入互联网时代,这间接导致我国人民更晚认识到数据对我们未来生活影响很大,所以我国对数据挖掘相应算法的研究涉及的也不多。不过根据相关报道我们知道有部分研究人员对决策树算法中的ID3算法进行了研究和改进。以刘小虎为代表的研究人员对ID3算法进行了改进,使得该新算法在选择新的分组变量值的时候考虑决策树的两层节点。在国内我们可以找出很多有关决策树在实际应用中的案例,比如:有人通过决策树算法对牙医诊断进行分类;有人通过决
3
信息科学与技术学院学士学位论文
策树算法对高校的贫困生进行分类;有人通过决策树算法对个人的信用等级进行分类以用于房贷发放的审核;有人基于决策树的算法对超市的消费数据进行分类以用于提高超市的销售业绩。与我们生活息息相关的数据挖掘技术已经被应用的范围变得越来越大了,身在大数据时代的我们应该好好珍惜这个学习机会。
1.4论文的组织结构
本文主要通过对C5.0算法和CHAID算法研究比较,分析各个算法的性能以及对我们收集的大学生消费数据进行挖掘是否合适。本文针对课题设计了相应的研究方法,我们主要是把九江学院在校大学生的宏观的消费数据作为研究的主体,把收集到的数据导入到MySQL数据库当中,建立相应的数据源。然后,用数据挖掘工具通过我们的训练样本建立不同的决策树模型,最后使用测试样本对我们建立的模型进行分验证和评估。
本文的内容分为五章,详细安排如下:
第一章:介绍本课题的研究背景,选题的意义以及决策树挖掘的研究现状,还有本文的主要研究方法和内容结构。
第二章:详细介绍了数据挖掘的基本概念、数据挖掘的过程、数据挖掘的相关技术与数据挖掘工具,最后通过比较各个数据挖掘工具的优缺点并结合本次研究时的实际数据环境选择了本文分析数据使用的数据挖掘软件。
第三章:主要研究关决策树算法,简要的介绍了什么是决策树,并对决策树中的部分算法进行了相应的举例介绍。最后比较介绍过的决策树算法各自的优缺点,然后在本章最后通过衡量本文研究的需求选定了适用于本课题的决策树算法。 第四章:介绍九江学院在校大学生的宏观消费状况和研究我们这些消费数据将要使用的工具。本文使用Clementine挖掘工具并结合了C5.0和CHAID算法对我们收集到的九江学院大学生消费数据进行分析,并对挖掘出的模型进行了评估。最后对本次研究的过程以及结果进行了相应的总结。
第五章:总结了本文对消费数据的研究的整个过程,其中包括数据包括数据的收集与处理,数据使用的算法与软件,挖掘结果的分析。最后介绍了一些我对数据
4
信息科学与技术学院学士学位论文
挖掘技术未来发展的看法,该技术在发展的过程中机会与风险共存。
5