3240.78 7211.96 1524.97 46.30 4365.87 3707.73 7223.06 1533.48 46.20 4690.49 3885.97 6573.85 1534.53 46.30 5079.78 4202.32 6544.56 1532.30 46.30 5624.04 4872.96 6606.46 1537.76 46.90 6399.77 ;
proc standard data=aa out=bb mean=0 std=1; var expenditure area labor degree income;run;
proc reg data=bb corr; model income=expenditure area labor degree / vif collin collinoint; run;
proc reg graphics data=bb;
model income=expenditure area labor degree/selection=stepwise sls=0.05 sle=0.05 noint r dw stb vif p;run; plot student.*p.;run;
4.2变量之间线形回归及多重共线性诊断
多重共线形是指在多元回归分析中的自变量之间存在的线性关系。在实践 中,由于系数矩阵来自样本观测,所以自变量之间的完全共线性较少,但自变量之间的近似共线性却会很明显,当回归模型中存在高度共线性时,其估计量的稳定性却很差,也就是说对于不同的样本得到的参数估计值往往差别很大,从而造成检验失效,所以在进行多元线性回归分析时,判断和处理自变量间多重共线性非常重要。
在以上程序中“proc reg data=bb corr; model income=expenditure area labor degree / vif collin collinoint; run;”部分,proc reg调用回归分析过程,并按model语句给出的模型结构进行分析,其中选项corr要求计算变量间的相关系数,vif要求计算方差膨胀因子,而collin和collinoint则要求进行多重共线性诊断。其相关系数阵结果如下图三:
图三 变量相关系数阵
12
贵州民族学院——统计学专业——毕业论文:广东农民收入影响因数的分析
由此相关系数阵可以看出,expengditure与 income高度正相关,相关系数达到了0.9957,而area和labor都与income负相关,degree与income正相关,相关系数相对也较高,达到了0.8648。在自变量之间,expenditure与area和labor都是负相关,而expenditure与degree正相关;而area与其他变量基本都是负相关,虽然与labor为正相关,但相关性比较低,只为0.0222;labor与area很相似,labor与其他变量也是负相关,只与area较低的正相关性;而degree与expenditure正相关,相关性相对较高,与area,labor都为负相关。
再对回归结果进行分析,如下图四:
图四 SAS线性回归结果
根据上图可以初步建立模型如下:
incom?e?3.3416E?17?0.9113e3xpenditu?re0.0124a9rea?0.0423l6abor?0.0961d8egree??
其中,?为残差项。对于此模型,我们需要进行以下诊断。 4.2.1.模型的显著性检验:
由图一可以看出,模型的拟合优度为R2?0.9964,表示因变量可以有99.64%可以由自变量来解释,方程拟合还是比较充分。再观察自变量与因变量之间线性关系的F检验,在显著水平为0.05的F值为1119.80,其对应的概率P小于0.0001,远远小于0.05,所以因变量与自变量存在显著的线性关系。
13
4.2.2.参数的显著性检验:
观察图三,在给定显著性水平为0.05下,常数项对应的概率P值为1,大于显著性水平0.05,与0没有显著性差异,所以常数项不能留在模型中。而四个自变量中,area对应T值的概率值为0.6685,大于0.05,与0没有显著性差异,也不能留在方程中。而变量expenditure,area,degree对应T值的概率值分别为小于0.001,0.0154,0.0040,都小于给定的显著性水平0.05,与0都有显著性差异,都通过T检验。
通过以上分析和诊断,可以明白,area,labor与income负相关,即增加area,labor的数量,income反而减少,这与经济理论不符合,背离经济理论知识,与实际情况不符合。常数项对应的概率P值为1,大于显著性水平0.05,与0没有显著性差异,所以常数项不能留在模型中。。变量area对应T值的概率值为0.6685,大于0.05,与0没有显著性差异,也不能留在方程中。 4.2.3.共线性判断:
再观察SAS程序输出的方差膨胀因子和共线性诊断图,如图五:
图五 方差膨胀因子和共线性诊断图
可以用条件指数(condition indices)K值来判断自变量之间的共线性,如果
1?K?10则可以认为自变量之间不存在共线性,如果10?K?30则认为 自变量之间
存在较强的多重共线性,如果K?30,则认为存在高度的多重共线性。如图五所示,其中条件数K值都在(1,10)之间,所以自变量通过条件指数判断不存在多重共线性。但在变量expenditure,area,degree上的方差比率分别是0.98127,0.60574,0.59951,都超过50%,说明三变量之间存在共线性,需要去掉不重要的的因素。
综合以上分析,初步所建模型不能用来分析广东农民收入的影响因素此问题,需要剔出变量area和常数项才进行回归分析,需要用逐步回归来进行选元。
14
贵州民族学院——统计学专业——毕业论文:广东农民收入影响因数的分析
4.3最终模型的建立及分析
用逐步回归来进行选元,其基本思想是:首先在待选的4个变量中选择一个对因变量影响最大的自变量,这可以通过因变量与每一自变量进行回归得到的F值来判断。若最大的F值在给定的显著性水平下显著的,则该变量被选中,否则选元结束。
第二步,在剩下的2个变量中,再选择一个变量加入到模型中,这可以通过偏F检验来判断。
偏F统计量为: F?SSR(Xj/X1)/1MSE(X1,Xj)~F(1,n?3)
其中,SSR(Xj/X1)=SSR(X1,Xj)?SSR(X1),表示模型已存在变量X1的条件下新加入变量Xj对因变量的贡献。若最大的偏F统计量在给定的显著性水平下是显著的,则对应的自变量被加入到模型中,否则不再加入其他变量,选元结束。
第三步,对已在模型中的每个变量进行显著性检验。若检验不显著,则去掉该变量,再重复进行第二步和第三步,否则保留该变量,重复进行第二步和第三步,这一过程一直进行到待选的全部自变量根据给定的显著性水平没有一个再能被选入模型或排除出刚构成的回归模型为止。
SAS程序中”proc reg graphics data=bb;model income=expenditure area labor degree/selection=stepwise sls=0.05 sle=0.05 noint r dw stb vif p;run;
plot student.*p.;run;”部分可实现逐步回归。其中选项“selection=stepwise”表示逐步回归(选元,并给出回归结果),“sls=0.05”表示变量保留在模型中的显著性水平为0.05,“sle=0.05”则表示变量选入到模型中的显著性水平为0.05,程序中model过程不包含截距项。选项r要求输出每个观察值的预测值、残差、标准化残差、COOK的D统计量。Plot语句要求绘制标准化残差与预测值的残差图。 4.3.1.模型的显著性检验:
程序输出最终结果如下图六、图七:
图六 SAS逐步回归结果输出
15
图七 模型显著性检验图
对因变量income进行逐步回归结果表明,第一步,变量expenditure被加入到模型中,说明三个自变量分别关于income回归,其中,由expenditure与income回归得到的F统计量最大对应的概率值小于0.0001,在显著性水平下通过检验,同时常数项也被剔出。第二步,分别把变量area,labor,degree加入到刚建立的模型中,并分别计算其偏F检验值,结果表明degree的偏F值最大其对应的概率值小于进入模型的显著性水平0.05,所以degree别选入到模型中,此时模型中已有expenditure和degree两个变量。第三步,对expenditure和degree分别计算其偏F统计量值及其对应的概率(输出中没有体现),结果两个变量的偏F检验对应的概率值都小于保留在模型中的显著性水平0.05,因此两个变量都被保留下来。第四步,重复第二步和第三步,即把最后一个变量加入到模型中,发现area的偏F值对应的概率大于进入模型的显著性水平0.05(程序没有体现),所以area不能被加入到模型中。最终模型中拟合优度
2而C(p)值也由21.6313减小到9.1012R的值由0.9915增大到0.9945再增大到0.9964,
再减小到2.2022总趋势越来越小,说明模型拟合得非常好,并且越来越好,最终因变量有99.64%可以由3个自变量解释。说明用此模型来分析广东农民收入的影响因素是非常合适的。
此时可以建立回归模型:
incom?e0.9248e8xpenditu?re0.0439l5abo?r0.0927d4egree?? 其中?为残差项。
可再对模型进行因变量与自变量显著性关系的F检验,而3个自变量对因变量的F检验值为1659.88,其对应的概率P值小于0.0001,远远小于0.05,说明自变量与因变量之间线性显著,用此线性回归模型来拟合是非常合适的。 4.3.2.系数的显著性检验:
如下程序结果输出图八:
16