直方图的横轴是系别变量,纵轴是人数。蓝色是男生红色是女生。根据直方图显示会计系、营销系、财政系三系人数最高。分别表示各系别男女生人数分布。
三、聚类分析
输入代码:
proc cluster data=path.stat method=ward outtree=tree standard pseudo ccc; proc tree data=tree graphics horizontal; run;
上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树状图。
ccc说明需要计算半偏R2、R2和CCC统计量。这三个统计量和下面的伪F和伪T2统计量主要用于检验聚类的效果。
当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。
R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。
CCC统计量的值大说明聚类的效果好。
Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是
4
所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。
后面的tree过程是用来绘制聚类分析结果的树状图。 运行结果如下:
上面的运行结果给出了对样品的聚类过程。SPRSQ为半偏R2统计量、RSQ为R2统计量 、 CCC为立方聚类标准、 PSF为伪F统计量、PST2为伪T2统计量。
5
结果分析:从半偏R2统计量的结果可以看出,当样本数据从3类合并为2类时,信息的损失程度较前面的的合并有明显的增加。从R2统计量的结果可以看出,当样本数据从3类合并为2类时,R2统计量较前面的合并显著减小,这意味着类内离差平方和增加,违背了Word,s的分类原则。从CCC统计量的结果可以看出,最大值对应的类数为3类。从6类合并为5类时,伪T2统计量显著增加,伪T2统计量下降显著。
由聚类分析的分析结果的树状图可知分为3类也是符合图形的。综合各类统计量的结果,学生的统计学成绩分为3类比较合适。
四、方差分析
输入代码: proc glm; class sex s3;
model s3=sex s3 sex*s1/ ss1 ss2 ss3 ss4; means s1/duncan; run;
输出结果如下所示:
6
从输出结果可以看出,平时成绩对总评成绩有显著的影响。性别对成绩影响中,女生成绩要优于男生,平均分比男生高,方差比男生小。可见,在平时成绩和性别对学生统计学总评成绩的影响。
7
五、结果分析与结论
本文选取2010—2011年统计学成绩作为样本数据,运用SAS软件先对学生成绩进行描述性统计分析,再选用聚类分析法,最后进行方差分析。
聚类分析(Cluster Analysis)根据样品的统计量将相似程度较大的样品聚合到一个小的分类单位,相似程度较小的聚合到一个大的分类单位,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,并将整个分类系统画成一张谱系图。
方差分析(Analysis of Variance)由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
根据描述性统计得到全部学生以及各系别学生的成绩以及性别的描述性统计,聚类分析将学生按照成绩系别等变量分为三大类。整体分析结果良好的反映学生的学习水平。结合上文的结论,可以分析出:女生由于出勤高,因而平时成绩优秀,这样期末总评成绩也普遍比男生高。
8