《统计软件》报告
聚类分析和方差分析 在统计学成绩分析中的应用
班 级:精算0801班 姓 名:张倪 学 号:2008111500 报告时间:2011年11月 指导老师:郝际贵 成 绩:
1
目 录
一、背景及数据来源 .................................................... 1 二、描述性统计分析 .................................................... 2 三、聚类分析 ................................................................ 4 四、方差分析 ................................................................ 6 五、结果分析与结论 .................................................... 8
聚类分析和方差分析在统计学成绩分析中的应用
一、背景及数据来源
SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS 系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。
本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。
数据来源:选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。将中文名称改为英文。
数据类型如下所示:
学号 性别 班级 系部 课程名称 字符型 title 老师 字符型 teacher 平时成绩 期末成绩 数值型 S1 数值型 S2 总评 学年 数值型 数值型 字符型 字符型 Sn Sex class dept 数值型 数值型 S3 year 当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型变量,所以用$来作为后缀。删除缺考错误分数等异常值。命名为2010stat.xls
1
二、描述性统计分析
(一)导入数据
首先建立永久磁盘路径,导入数据集stat libname path un;
(二)描述性统计分析
然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:
proc means data=path.stat; var sex s1 s2 s3; run;
输出结果如下:
从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为77.15分。
按照系别分类,每个系进行描述性统计,代码如下: proc means data=path.stat; var sex s1 s2 s3;
class dept;
run;
运行的输出结果如下所示:
2
从结果可以分析得出,各个系别学生成绩的均值、观测值、标准差及最大值和最小值。其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营销系和留学生以外,各系都有100分。
(三)统计图
绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。代码如下所示:
proc gchart data=path.stat;
vbar dept/type=sum subgroup=sex; run;
统计直方图如下所示:
3