而其他地方比较光滑稠密,因此选取左侧图像进行放大查看,如图8所示:
图8 放大后的损失函数图像
从图8可以看出,曲线在纵轴4.4-5.2之间有少许拐点,因此,放大后分别对纵轴4.4-4.8以及纵轴4.8-5.2之间的图像进行再次放大,如图9所示:
图9 放大后的损失函数图像
从图9可以清楚地看到,大约在纵轴4.6和4.8处以及纵轴4.0和5.1处,图像有四个明显的拐点,因此分类数K取为4或者5都是合适的。由于图像上的观测数值稍偏向于5,因此本文选取K值为5,即分为5类进行聚类。 4.2.2 利用SPSS进行快速聚类分析
以612名学生四个学期的成绩数据为聚类变量,聚类数为5,迭代10次,运行SPSS进行聚类计算的结果如表3-表5所示,其中表6为最终的分类情况(由于篇幅有限,只列出部分数据,详细数据见附件17):
表3 最终聚类中心
1 2 3 4 5 学期1成绩 70.12173 79.43517 58.4838 57.21686 38.42292 学期2成绩 72.8839 81.47749 57.86058 57.82471 18.32652 学期3成绩 70.48539 79.39345 63.78376 46.91419 19.46546 学期4成绩 72.61679 81.39656 67.13915 22.67073 21.21012 均值 71.5270 80.4257 61.8168 46.1566 24.3563 从聚类中心可以看出,五个类别的聚类中心均值分别为71.5270、80.4257、61.8168、46.1566和24.3563。因此可以根据此结果把学生的状况分为5个类别,依次是:学习状况良好、学习状况很好、学习状况一般、学习状况勉强以及学习状况差。
表4 每个聚类中的案例
11
聚类 总数 有效个数 缺失
1 231 231 0 2 286 286 0 3 84 84 0 4 8 8 0 5 3 3 0 总计 612 612 0 从表中数据可以看出,处于类别1(学习状况良好)和类别2(学习状况很好)的学生数量占了绝大部分比率,与负偏态分布的结论相吻合,说明分类具有合理性。
表5 聚类成员(部分数据)
学生序号 学期1 学期2 学期3 学期4 均值 聚类 6 78.2750 65.2946 76.0400 72.4900 73.0249 1 7 76.3250 75.4929 63.4350 66.5050 70.4395 1 9 69.1500 76.3571 71.0550 73.6400 72.5505 1 ? ? ? ? ? ? 1 599 72.5833 77.1852 73.2632 76.4500 74.8704 1 601 81.4583 78.3333 68.9737 71.7000 75.1163 1 603 75.3958 76.4815 74.0263 75.3500 75.3134 1 607 74.5208 72.4815 75.2632 72.6000 73.7164 1 612 55.1875 73.2963 69.5000 73.7000 67.9209 1
均值 72.3594 74.3269 70.8687 72.9383 72.6233
聚类中心 70.1217 72.8839 70.4854 72.6168 71.5270
1 79.0000 74.8250 74.2900 76.9800 76.2738 2 2 75.6250 73.4036 80.5913 74.8450 76.1162 2 4 82.7500 83.2039 76.5066 80.8700 80.8326 2 5 76.1000 83.1161 77.5755 83.2950 80.0216 2 ? ? ? ? ? ? 2 610 80.6042 80.2222 81.4211 80.5500 80.6994 2 611 86.4792 87.2593 76.8158 86.4500 84.2511 2
均值 77.6142 80.5289 76.9848 81.1040 79.0580
聚类中心 79.4352 81.4775 79.3935 81.3966 80.4257
3 62.1203 59.2143 68.5019 68.8650 64.6754 3 18 53.5000 52.3714 63.2850 63.6150 58.1929 3 28 63.9000 56.8786 60.1300 56.9900 59.4746 3 468 57.2653 59.2381 76.4000 79.3182 68.0554 3 ? ? ? ? ? ? 3 500 54.8750 67.1852 64.9211 70.0000 64.2453 3 514 51.2083 56.3333 65.1842 66.3000 59.7565 3 543 42.4792 71.4074 69.8158 74.0976 64.4500 3 544 53.1250 73.0741 58.7895 74.1500 64.7846 3
均值 54.8091 61.9628 65.8784 69.1670 62.9543 聚类中心 58.4838 57.8606 63.7838 67.1391 61.8168 12
8 60.9500 58.2321 55.9009 16.5000 47.8958 43 60.5000 47.2071 56.5050 16.5000 45.1780 62 59.4750 55.7143 57.0200 16.5000 47.1773 67 50.7000 44.0768 46.0321 36.8100 44.4047 273 49.6800 56.9464 38.2326 17.5946 40.6134 288 49.3673 63.9394 24.2963 0.0000 34.4008 557 68.6875 70.7407 64.9737 27.6279 58.0075 595 58.3750 65.7407 32.3529 49.8333 51.5755 均值 57.2169 57.8247 46.9142 22.6707 46.1566 聚类中心 57.2169 57.8247 46.9142 22.6707 46.1566
141 40.9500 28.6545 22.0526 19.4302 27.7719 222 24.3438 0.0000 16.2500 19.1351 14.9322 242 49.9750 26.3250 20.0938 25.0650 30.3647 均值 38.4229 18.3265 19.4655 21.2101 24.3563 聚类中心 38.4229 18.3265 19.4655 21.2101 24.3563
4 4 4 4 4 4 4 4
5 5 5
结论:大部分学生的学习状况良好,而少数学生的学习状况一般。值得注意的是,有11个学生处于危险的学习状况下,其中3个其四学期的平均分只有24.3563分,在百分制中属于极差的状况,需要引起高度重视。 4.3 成绩预测的灰色系统预测模型
灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。灰色预测是指利用GM模型对系统行为特征的发展变化规律进行估计预测,同时也可以对行为特征的异常情况发生的时刻进行估计计算,以及对在特定时区内发生事件的未来时间分布情况做出研究等等。这些工作实质上是将“随机过程”当作“灰色过程”,“随机变量”当作“灰变量”。本文采用的是灰色系统理论中的GM(1,1)模型。
4.3.1 灰色建模可行性检验:对原始数据进行预检验与预处理
为了保证建模方法的可行性,需要对已知数据列做必要的检验处理。 设第i个学生第j个学期的成绩为
(1)
计算数列的级比
(2)
如果所有的级比
都落在可容覆盖
13
,即(0.67032,1.39561)(在本文
中,)范围内,则数列可以作为灰色模型GM(1,1)的数据进行灰色预测。否则,需要对数列做必要的变换处理,使其落入可容覆盖内。即取适当的常数C,作平移变换
则使数列
的级比为
(3)
由于有两个成绩为0的数据,因此在计算级比时,统一将其当作缺失值并做替换处理(用该学生成绩非0的其他几门成绩的均值代替),由于数据量极少,因此不影响整个模型的计算结果。之后运用Excel进行计算后得到每个学生的级比,并对其进行比较判断后证实所有数据均落在可容覆盖范围内(详细数据见附件6)。三个级比的均值依次为0.985193、024020066和0.988009465。
因此学生成绩可以进行灰色模型GM(1,1)的数据进行灰色预测。 4.3.2 建立GM(1,1)灰色模型
对数列
做一次累加生成1-AGO数列:
其中,
(4)
均值数列 则
(5)
于是可建立灰微分方程
(6)
转化为白化微分方程
(7)
记为
则由最小二乘法,求得使 达到最小值的
于是可求解白化微分方程(7)得到预测值为
14
(8)
(9)
且
其中的待求参数a和b则由公式(8)计算得到第i个学生待求参数和。 将和代入方程(9),可得预测方程为
(10)
依据预测方程(10),写出Matlab代码(代码见附录一)即可计算每个学生第5、6学期的成绩预测值。而当时,模型计算得出的是前四个学期的成绩拟合值。 3.4.4 预测值检验 4.3.4.1 残差检验
计算残差值
如果残差
则可认为预测结果达到一般要求; 如果残差
则可认为预测结果达到较高要求;
利用Excel计算得到残差检验数据(详细计算结果如表4(详细数据见附件9)所示),前四个学期的残差均值为依次为3.87665E-15、0.007174、-0.02019和0.009094,表明绝大部分残差值都满足
因此,可以说模型的预测结果能达到较高的要求。
表6 残差检验
序号 学期1 学期2
1 0 0.00727 2 0 -0.02965 3 6.8629E-16 -0.0276 4 0 0.021814 5 -7.65631E-14 0.022604 6 -1.0893E-15 -0.03859 ? ? ? 606 -2.45435E-15 0.040417 607 8.9055E-14 -0.01253 608 -1.28875E-15 0.012519 609 0 0.021155 610 7.93371E-15 -0.00431 611 7.39473E-15 0.038155
15
学期3
-0.01438 0.053528 0.045447 -0.04809 -0.04838 0.063556
? -0.0971 0.024116 -0.02521 -0.04177 0.008476 -0.08711 学期4 0.006867 -0.02854 -0.02037 0.023116 0.022505 -0.03145
?
0.044616 -0.01249 0.011835 0.018548 -0.00427 0.038898