基于决策树算法对大学生消费状况的研究论文(8)

2019-01-26 15:34

信息科学与技术学院学士学位论文

4 基于决策树算法对九江学院大学生消费状况的研究

4.1九江学院大学生的消费状况调查

九江学院是一所坐落在江西省九江市庐山区前进东路的国立公办的全日制本科普通高等院校。我们学校占地面积共2850亩,总共分为4个校区。如今全日制在校的学生3.8万余人。校内外学习饮食娱乐等设施齐全,校内外环境优美,交通便利。本次课题研究的是九江学院在校大学生消费状况。九江学校共有4个校区,各个校区路程相距较远,而我的学习和生活在主校区,并且主校区的在校学生人数比其它校区都多,所占的比例非常大。在收集消费数据的时候,我们起初考虑过从负责管理校园卡的技术人员那获取我们校园卡消费记录。由于我们校园卡的消费信息局限于饮食上的消费,因此这些数据只能作为辅助数据。然后我们考虑通过问卷调查这种方式去收集在校大学生的消费信息,并觉得这是目前比较可行的方案。此外考虑到收集数据所需时间和成本的问题,我们决定使用网络问卷调查随机收集部分九江学院在校大学生的消费数据。本次问卷调查目标人群主要为九江学院主校区在校大学生。在确定问卷之前我从图书馆借阅一些关于设计如何问卷调查的书籍。在设计问卷的过程中我们需要注意以下几点:

(1)我们需要明确调查的目的和内容,因为问卷设计是以这个为基础的。 (2)我们需要要清楚调查的对象是什么,以及提问时用词要恰当。

(3)我们要考虑设计这份问卷的具体格式,确保收集到的数据能够很方便的被软件使用。

(4)我们设计问卷应该向调查对象表明本次问卷调查的意图,以及承若不泄露任何个人隐私。

(5)问卷中问题的数量要适当,问题排列的顺序要符合逻辑。

通过对问卷的初步设计以及后期的反复修改,最终设计的这份问卷包括17个单选题,一个多选题和一个填空题。通过比较多个问卷调查网的问卷题目录入的方便

31

信息科学与技术学院学士学位论文

性、问卷填答的方便性和问卷后期收集数据是否方便,我们选择在“问卷网(www.wenjuan.com)”上发布我们的设计好的问卷。问卷发布后,我们得到了相应的问卷填答网址链接,我们把链接发给同学,让他们填答问卷或者让他们帮忙转发给其他同学填答。我们还通过QQ群、微博、微信、九江学院贴吧等多种方式寻求帮忙填写这份问卷。到最后我们总共收集到了458份有效的问卷,问卷数量偏少可能会影响到后面的决策树挖掘的结果,但是并不影响继续进行本课题的研究。

对收集的问卷数据进行了初步分析,我们了解到在这些参与问卷调查的人数中有25.7%的学生月生活费没有超过800元,有44.5%的学生活费在800到1000元这个消费区间,有29.8%的学生的月生活费已经超过1000元;有手机、电脑、平板、相机的学生人数比例分别为:95.9%、74.0%、9.8%、13.7%;由于现在科技越来越发达,手机这种移动终端也变得各式各样,价格也千差万别,这次调查分析我们还发现有57.6%的学生的手机价格不低于1000元,34.2%的学生的手机价格甚至超过1500元;这次调查还让我们知道有多达67.0%的学生在课余时间做过兼职或者勤工助学;我们分析数据还发现在现在科技越来越发达的时代,九江学院在校大学生每个月投入到购买学习用品的费用却越来越低了,只有25.1%的学生每月购买学习用品(笔、书之类)的费用在35元以上。本次问卷调查收集到的数据不仅仅是这些内容,另外学生是否贷款缴纳学费情况、学生的电话消费情况、学生的恋爱消费情况、学生生活用品消费情况、学生的娱乐消费等在这次问卷调查中都涉及到了。

4.2消费数据的收集与处理

4.2.1消费数据的处理

数据挖掘技术流程大体上包括数据收集、数据集成、数据规约、数据清理、数据变换、数据挖掘过程、模式评估、知识表示这8个过程。本文把数据的集成、规约、清理、变换放在一起统称为数据的准备。实际应用中我们收集的数据可能会杂乱无章,还有可能存在重复、缺失值之类的问题,或者数据不够规范。

本文通过网络问卷调查平台向我们在校大学生收集到我们需要的消费数据。经过一段时间的问卷调查后,问卷的答案信息被直接录入了网络问卷调查平台的数据

32

信息科学与技术学院学士学位论文

库,我们只需要从问卷调查平台把我们的数据下载到本地,并进行相应字段转换处理。图4-1为处理后的部分问卷数据。

图4-1 部分问卷数据

图4-1中第一列是问卷填写是否完整的值,与我们研究无关。在使用这些数据的时候,可以使用过滤节点把数据表中与我们数据挖掘研究无关的字段过滤掉。第二、三、四...列为依次为问卷的第一道题目、第二道题目、第三道题目...的答案选项,由于题目较长,将使用了不同字母来替换,数据表中的第一行(字母+数字)为题目号。

本次通过网络问卷的方式搜集到的大学生消费数据的格式比较适合我们选定的数据挖掘软件分析。由于收集这些数据存在一定难度,所以收集的数据量相对偏少,这可能会对分析的结果有一定的影响。我们知道在数据量非常大的时候需要将数据导入数据库,这样做有利于提高数据挖掘的运算效率。无论本文研究过程中问卷收集的数量有多少,本文将把收集的数据导入到使用比较广泛的MySQL数据库中。本文使用的是MySQL5.5,通过使用Navicat软件把数据导入MySQL数据库中。 按照向导的提示填写相应的参数,这样我们成功的把收集到的508条数据分别导入到数据库了。那么接下来我们需要创建数据源才能让数据挖掘软件正常的使用我们收集到的数据,关于如何创建可用的数据源本文不作相应的介绍。图4-2为成功导入MySQL数据库中的部分消费数据。

33

信息科学与技术学院学士学位论文

图4-2 cousumption data数据

4.3决策树的挖掘结果

4.3.1 基于C5.0决策树

该小节将基于C5.0算法研究九江学院在校大学生的消费情况对学生是否参加勤工助学或者兼职的影响。 (1)添加C5.0模型节点

首先在数据流区域把需要的节点添加到同一条数据流中,其中包括数据源节点、过滤节点、类型节点、分区节点(根据需要选择是否添加)和模型节点。本次案例使用模型选项卡中的C5.0节点,将C5.0添加到数据流的恰当位置上。通过使用鼠标,我们就可以对该节点相应的参数按照我们的需要来进行设置。参数设置包括字段、模型、成本(损失)、分析、注解五个选项卡。而且各个节点的参数值都可以在使用的过程中根据实际需要来进行修改。

图4-3为C5.0模型选项卡的参数设置窗口。

图4-4为研究九江学院在校大学生的消费情况对学生是否参加勤工助学或者兼职的影响的数据流。

34

信息科学与技术学院学士学位论文

图4-3 C5.0模型选项卡参数设置窗口

图4-4 C5.0数据流图

(2)模型计算的结果

运行数据流后的结果将在流管理器的模型选项卡中显示。鼠标右击C5.0模型结果,选择弹出菜单中的浏览选项,可以浏览分析结果。C5.0的计算结果以文字和图形两种形式显示,图4-5为决策树分析结果的文字形式,其中左侧是决策树的文字结果,右侧是输入变量倾向得分的图形表示。图4-6为基于C5.0预测学生是否会参加

35


基于决策树算法对大学生消费状况的研究论文(8).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:同城化问卷提纲

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: