5.2.2 模型建立及算法
根据数据表,假设工龄增长到一定数值后,月工资不再增长。 设平均日工资与其他因素之间满足
y?a0???a1x1???a2x2??a3x3?a4x4???a5x5?a6x6??a7x7?a8x8???a9x12????
?i ~?0,?2?
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9是待估计回归系数,?是随机误差。 算法同模型一, 可得到ai?(n???0,1,2,?,9)的参数估计见表
5.2.3 模型结果
变量 参数估量 29.823 0.22777 -2.414 -2.4943 0.61541 1.5788 0.51496 17.574 19.281 -0.00033287 a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 所得参数表达式:
y?29.583???0.22777x1????????x2??2.4943x3?0.61541x4???1.5788x5??0.51496x6??17.574x7??19.281x8?????????????x12
5.2.4 模型分析:
在该模型中,本文建立了多元非线性回归模型。算法同模型一,得出平均日工资与其他因素之间的函数关系。由后面的模型检验部分看出,拟合度提高到0.87774。 说明平均日工资与其他因素之间呈非线性关系。
6
5.3 模型三:待检验参数经过筛选的多元线性回归模型
我们知道影响平均日工资的因素越多,平均日工资的构成就越复杂,计算工资就会相当耗费资源,同时某些因素也会对计算结果造成一些负面影响。因此我们需要找到一种只用一部分因素又能有很高精度的模型,在模型三中,本文通过逐步判别法,得出工龄及学历是影响平均日工资的关键或主要因素,这样可以大大减少计算工资所花费的时间,修改后的模型更具有实际意义和应用价值。
5.3.1逐步判别法来筛选特征因素
这里本文使用逐步判别法来筛选特征因素。
逐步判别法的主要思想是:在建立多元回归方程的过程中,按偏相关系数的大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下一个自变量。如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变得不显著者,经统计检验确证后要随时从方程中剔除,只保留效应显著的自变量。直至不再引入和剔除自变量为止,从而得到最优的回归方程。
5.3.2逐步判别法的建立及算法: Step1. 确定F检验值
确定F检验水平, 以作为引人或剔除变量的标准。 Step2. 逐步计算
(a)计算全部自变量的偏回归平方和V’。
(b)在已引入的自变量中, 检查是否有需要剔除的不显著变量。在已引入的变量中选取具有最小V’值的一个并计算其F值, 如果F< F2, 表示该变量不显著, 应将其从回归方程中剔除, 计算转至(c)。如F>F2则不需要剔除变量, 这时则考虑从未引入的变量中选出具有最大值的一个并计算F值, 如果F> F2, 则表示该变量显著, 应将其引人回归方程, 计算转至(c)。如果F< F2, 表示已无变量可选入方程, 则逐步计算阶段结束, 计算转入(c)。
7
(c)剔除或引人一个变量后, 相关系数矩阵进行消去变换, 第t+1步计算结束。其后重复(a)~(c)再进行下步计算。 Step3. 其他计算
计算回归方程入选变量的系数、复相关系数及残差等统计量。
分析后得具体筛选过程如下:
1) 准备工作
计算总体的组内离差阵和剔除变量的临界值
E?(eij)p?p和组间离差阵
T?(tij)p?p,确定引入变量
F1和F2,虽然临界值是随着引入变量和剔除变量的个数的
变化而变化的,但当样本容量有一定大小后,他们的变化甚微,本文取
F1?F2?F?。
2) 逐步计算
本题已经引入了8个变量,本文设为x1,x2,……,x8,则计算内容如下 i)计算全部变量的“判别能力”
x对未选入变量i计算
对已选入的变量
Ai?eii,i?L?1,……,ptii。 Ai?tjjejj,i?1,……,L
xj,计算
对已入选的变量中考虑剔除可能存在的最不显著变量,取最大的
Aj(即最小的
F2j)。
,这里
ii)假设
j?L表示xj属于已入选的变量。做F检
验,剔除变量是统计量为:
1?ArF2r??(n?L?1)Ar
F?Fx2r1r若,则剔除r,然后对E和T作消去变换。
8
若
F2r?F1r,则从未入选变量中选出最显著的变量,即要找出最小的AiFxA?min{A}i?L1iri(即最大的),假设,这里表示i属于未入选变量,
做F检验,引入变量是统计量为:
1?ArF1r??(n?L?2)Ar
1r?F1,则引入若Fxr,然后对E和T作消去变换。
重复上面操作i),ii),直至不能剔除又不能引入新的变量时,逐步计算结束。
5.3.3 模型结果 1. 方差分析如下:
Anova 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 4 回归 残差 总计 5 回归 残差 总计 平方和 13244.961 10215.939 23460.900 17277.513 6183.387 23460.900 18197.025 5263.875 23460.900 18610.131 4850.769 23460.900 18588.014 4872.886 23460.900 df 1 88 89 2 87 89 3 86 89 4 85 89 3 86 89 均方 13244.961 116.090 F 114.092 Sig. .000 af 8638.757 71.073 121.547 .000 b 6065.675 61.208 99.100 .000 c 4652.533 57.068 81.526 .000 d 6196.005 56.661 109.351 .000 e a. 计算变量: (常量), x1。 b. 计算变量: (常量), x1, x3。 c. 计算变量: (常量), x1, x3, x8。 d. 计算变量: (常量), x1, x3, x8, x7。 e. 计算变量: (常量), x1, x8, x7。 f. 因变量: y 9
2. 残差分析表如下:
残差统计量 a 计算值 残差 标准 计算值 标准 残差 a. 因变量: y 极小值 39.01 -25.685 -1.288 -3.412 极大值 92.69 19.888 2.425 2.642 均值 57.63 .000 .000 .000 标准 偏差 14.452 7.399 1.000 .983 N 90 90 90 90 基于此模型,工龄和学历逐步被判别是与平均日工资关系密切的因素。由方差分析表可以看到,性别以及女性婚姻情况在计算model1至model5均被剔除,对因变量影响并不大,可近似认为,在该公司女性并没有受到不公平待遇,且她们的婚姻状况对她们的工资影响不大。
5.3.4根据筛选结果利用多元线性回归模型判断影响密切
我们知道影响平均日工资的因素越多,平均日工资的构成就越复杂,同时某些因素也会对计算结果造成一些负面影响。因此我们需要找到一种只用一部分其他因素又能有很高精度的模型,在该模型中,本文通过逐步判别法,得出工龄及学历是影响平均日工资的关键或主要因素,这样可以大大减少计算工资构成所花费的资源,修改后的模型更具有实际意义和应用价值。
根据以上两项因素,重复之前的多元线性回归模型,可以得到新的回归方程为:
y?38.394?+?0.88x1??13.232x7+?21.875x8
其中:x1表示工龄,x7和x8联合表示学历。
测试90组数据,置信度为95%,拟合度是0.79,平均误差比模型一小,我们认为该方法是正确可行的。
选取一组数据,x1,x3,x4,?x7,x8,x9相近,代表性别婚姻的x5,x6取不同值,检验输出值,与期望值的误差在可接受范围内。比较可知,性别对工资影响小,
10