图6:未剔除数据前的多元线性回归预测的残差图
图7:剔除部分波动较大的数据之后的多元线性回归残差图
由图7可以明显发现预测值与真实值之间的偏差几乎都小于10 分,没有波动很大的成绩出现,说明该线性回归的精度在一定程度上满足要求。
由下表的数据,可看出学生总体的成绩是在不断提高的,成绩为优秀和良好的同学占得比例越来越大,同时不及格的同学正在逐渐减少,学生总体的学习状况良好。
16
再利用Excel对所预测的学生成绩进行数据分析与计算得到的表格如下: 第5学期 第6学期 平均分 77.195 78.389 最高分 87.957 87.944 最低分 29.673 36.781 极差 58.284 51.163 中位数 77.621 78.845 总分 45158.868 45857.280 方差 41.513 32.166 标准差 6.443 5.672 偏度 -0.4356 -0.3725 从以上的数据分析来看,在不考虑极少部分成绩很不稳定的同学的前提下,该模型能够很好的预测学生的5,6学期的成绩,由此来说明其学习状况。
模型二:改进的灰度模型GM(1,1)预测成绩模型 1.模型说明:灰色模型法由于具有所需数据少、计算量小的优点而得到了广泛的应用。部分信息已知、部分信息未知的系统称为灰色系统,灰色系统理论是企业界较实用的一种预测方法。灰色系统理论把一切随机过程看作是在一定范围内变化的、与时间有关的灰色过程,将离散的原始数据整理成具有规律性的生成数列,然后再进行研究。对灰色过程建立的模型称为灰色模型,即GM。 GM(1,1)是最常用、最简单的一种灰色模型,它是由一个只包含单变量的微分方程构成的模型,是GM(1,N)的一个特例。 2.模型建立:
设 i 个学生第j 学期的综合成绩为xi0,j,那么有原始数据可得数据列为:
xi0?(xi0,1,xi0,2,xi0,3??xi0,n)
对原始数据作一阶累加生成:xi1?(xi1,1,xi1,2,xi1,3??xi1,n),其中
x??xi0,j,k?1,2,......n。
1i,kj?1k再作xi1的一阶均值生成,得xi?(xi(2),xi(3),??????,xi(n)) 其中xi(k)?111(xi,k?xi,k?1),k?2,3,??????,n 2此时构成了灰色模块,由于xi1具有指数增长规律,而一阶微分方程的解正好是指数增长形式的解,由此可建立灰色模型GM(1,1)为:
dxi1?t??axi1(t)?u dt其中a,u 为待求系数。解此微分方程得:
17
1u??aku?0??,k=1,2,3..... xi,k?1??xi(1)??ea?a?式中的参数可由最小二乘法求得,即:
A?(a,u)T?(BTB)?1BTYN
?xi0(2)???xi(2)?1??0????x(3)?1? ,Y??xi(3)? 其中:B??iN?????????????x(n)?1?0????i?xi(n)?0?设:ek?x(k)?xi(k),k?0,1,??,则有:
0i1n1n01n01n22e??e(k),x??xi(k),s1???xi(k)?x?,s2???e(k)?e?????。 nk?1nk?1nk?1nk?1令:公差比c=
s2,若同时满足:c<0.35,p?p?e(k)?e?0.6745s1??0.95,那么
??s122预测模型就满足一级精度。
由该模型我们对前100个学生后两个学期的成绩进行了预测,
3.模型应用:对于灰色模型我们用matlab编程的方式来求解,程序请参见附件。根据上述模型对第5,6 个学期进行预测并经过标准化成绩评价模型得到表9中的数据。
由下表,对于大部分成绩的可靠性能够接受,相对于前四个学期,成绩分布仍比较稳定,预测结果与前四个学期的误差基本上能保证在5分之内,有相当部分的预测数据精度相当高,误差只有零点几分。由此可知灰色预测在精度上比线性回归要好,对于学生成绩能进行更准确、更有效的预测。但是对于衡量灰色预测精确性的公差比c而言,我们预测的结果只有一部分能满足一级精度,可见灰色模型还有进一步改进的余地,以期达到更好的预测结果,我们将在模型的评价与改进中,探讨如何改进灰色预测模型。 学生序号 学期1 学期2 学期3 学期4 学期5 学期6 1 2 3 4 5 6 ??
79.000000 75.625000 62.120312 82.750000 76.100000 78.275000 ?? 74.281049 75.579850 60.848374 81.388929 81.237290 67.814383 ?? 75.358386 76.277383 65.388666 80.185869 81.328803 71.207238 ?? 18
76.451348 76.981354 70.267738 79.000592 81.420420 74.769842 ?? 77.560162 77.691821 75.510870 77.832836 81.512139 78.510689 ?? 78.685058 78.408846 81.145225 76.682341 81.603962 82.438696 ?? 611 612 69.729000 59.313000 75.712943 73.906087 74.747091 75.566764 73.793561 77.264758 72.852194 79.000905 71.922836 80.776064 利用灰度预测法预测的5、6学期成绩
学生序号 1 2 3 4 5 6 ...... 611 612 学期一误差 0.000000 0.000000 -0.000000 0.000000 0.000000 0.000000 -0.000000 -0.000000 学期二误差 -0.543951 2.176278 1.634088 -1.814999 -1.878782 2.519741 -3.329339 -1.336407 学期三误差 1.068386 -4.313892 -3.113221 3.679265 3.753331 -4.832762 6.691394 2.665081 学期四误差 -0.528652 2.136354 1.402738 -1.869408 -1.874580 2.279842 -3.362749 -1.328843 预测结果与前四学期的误差表
五、模型的检验
我们根据现有数据在计算机通过专业软件进行模拟后,发现所得结果在有效误差范围,跟实际成绩预期基本上相同。验证了此模型的有效性。
六、模型的评价和改进建议
模型的评价:
学生学习状况评价模型: 模型一:模糊层次分析法 优点:模糊层次分析法可以提高学生学习情况综合评价指标权重值的科学性和可信性,从而能够很好地反映学生的实际学习情况,避免了传统的将各项分数相加求和的不合理性做法,从而使教育管理者能更好的了解学生学习状态,有效的实施教学管理。 缺点:仍在一定程度受主观因素的影响,各项指标权重的确定方式有待进一步的改进。
模型二:成绩标准化模型
优点:通过标准化过程,使学生成绩呈正态分布,让一些成绩靠后的学生能进入中间水平,同时各个学期的成绩经过标准化之后具有了可加性,相加的最终结果能正确的反映学生的整体水平,而不是在绝对分数中只靠几次突出的成绩就能提高得到好的名次,从而更加公平、合理。
缺点:正态化的方法还要进一步探讨,从而让结果能有更好的正态性。 学生成绩预测模型:
模型一:多元线性回归模型
优点:在各学期具有相关性的成绩下,能够较好的预测后面学期的成绩,并且预
19
测成绩的确定建立在前四个学期的成绩的基础上,有效的利用了数据。 缺点: 易受波动较大的点的影响,当数据中有较多的坏点时,预测精度下降十分明显。
模型二:灰色预测模型
优点:灰色预测能很好的用于预测变化趋势不太明显的点,总体精度比较高,能满足预测要求,计算也较简单,有利编程实现算法。 缺点:由于灰色预测只使用一个初始点,并以过该点的一条指数曲线去预测数据,因而初始点的选择非常重要,而在大多数情况下我们是取原始数据的第一个,这时难免有时会出现结果不理想的情况,对此我们将提出一个改进的建议。
模型的改进建议:
1、针对多元线性回归模型的改进
针对多元线性回归模型中预测结果易受波动较大的部分数据影响的情况,我们有如下改进的建议:
多元线性回归中参数的确定采用的是最小二乘估计,要求?(yi?y)2的值最小,
i?1n由于该式是残差的平方和,随着|yi?y|的增加(yi?y)2会迅速的增加,这是造成最小二乘法估计受异常值影响较大的原因。为此,我们希望找到另外的变化较慢的函数?(yi?y)去代替(yi?y),使得??(yi?y)2达到最小,,比如令
22i?1n?(yi?y)?|(yi?y)|,则可以达到这一效果。
在用最小二乘估计求解的过程中当X?X接近奇异时,回归系数往往出现不稳定的现象,有时甚至会出现与实际经验相反的符号。针对这一问题,有人提出
?1?1???(XX?kI)X(XX)X?进行估计,这就是所谓的岒回归估计。 了用取代
2、针对灰色预测模型的改进
从灰色预测模型的建立过程可知,所得的灰色预测模型的解实际上是过
?i1(1)?xi0(1)的一条指数曲线,由这条指数曲线去近似地代替原始观察序列xi0,x并且用这条指数曲线去预测未来原始序列的变化趋势。但根据一般的常识知道,对于给定的一个原始序列,我们要做的是:选择一条最佳的曲线,去拟合这一原
?i1(1)?xi0(1)作为一个严格的条件来确定预测模型是不够科始序列。而灰色模型用x学的。
?i1(k)?xi1(k)为边界条件,即求下列微分方程的解: 解决的方法是,以x
20