数理统计第一次大作业——回归分析(2)

2019-04-16 23:57

表5 方差分析

Anovad 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 平方和 8190.902 235.594 8426.496 8390.231 36.265 8426.496 8409.491 17.005 8426.496 df 1 8 9 2 7 9 3 6 9 均方 8190.902 29.449 F 278.136 Sig. .000a 4195.116 5.181 809.766 .000b 2803.164 2.834 989.048 .000c a. 预测变量: (常量), 粮 食。 b. 预测变量: (常量), 粮 食, 干鲜果品。 c. 预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。 d. 因变量: 农林牧渔业总产值 表6显示方程外各模型变量的有关统计量,即标准化偏回归系数Beta、回归系数显著性检验的t值、P(Sig)值、偏相关系数Partial Correlation、共线性统计的容差Collinearity statistic Tolerance。可见,模型3方程外的各变量偏回归系数经检验,P值均大于0.11,故不能引入方程。

表6 逐步回归过程中不在方程中的变量

已排除的变量d 共线性统计量 模型 1 棉 花 油 料 蔬 菜 干鲜果品 猪牛羊肉 禽蛋产量 水产品 2 棉 花 油 料 蔬 菜 猪牛羊肉 禽蛋产量 水产品 3 棉 花 油 料 猪牛羊肉 禽蛋产量 水产品 Beta In .101a -.054a .497a .277a .426a .094a -.142a .012b -.034 .232b .200b .015b -.059 .027c .000c -.029c -.008 .011c cbbt 1.948 -.654 4.071 6.203 1.030 1.519 -1.367 .351 -1.021 2.607 1.147 .433 -1.273 1.165 -.015 -.158 -.299 .196 Sig. .092 .534 .005 .000 .337 .173 .214 .738 .347 .040 .295 .680 .250 .297 .988 .881 .777 .852 偏相关 .593 -.240 .838 .920 .363 .498 -.459 .142 -.385 .729 .424 .174 -.461 .462 -.007 -.070 -.133 .087 容差 .971 .546 .080 .309 .020 .779 .292 .626 .541 .042 .019 .602 .263 .594 .393 .012 .526 .137 VIF 1.030 1.832 12.542 3.238 49.373 1.284 3.428 1.597 1.850 23.638 51.834 1.660 3.798 1.685 2.544 86.500 1.900 7.293 最小容差 .971 .546 .080 .309 .020 .779 .292 .199 .261 .042 .019 .191 .219 .040 .031 .012 .037 .022 a. 模型中的预测变量: (常量), 粮 食。 b. 模型中的预测变量: (常量), 粮 食, 干鲜果品。 c. 模型中的预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。 已排除的变量d 共线性统计量 模型 1 棉 花 油 料 蔬 菜 干鲜果品 猪牛羊肉 禽蛋产量 水产品 2 棉 花 油 料 蔬 菜 猪牛羊肉 禽蛋产量 水产品 3 棉 花 油 料 猪牛羊肉 禽蛋产量 水产品 Beta In .101a -.054a .497a .277a .426a .094a -.142a .012b -.034b .232 .200b .015b -.059b .027 .000c -.029c -.008c .011 ccbt 1.948 -.654 4.071 6.203 1.030 1.519 -1.367 .351 -1.021 2.607 1.147 .433 -1.273 1.165 -.015 -.158 -.299 .196 Sig. .092 .534 .005 .000 .337 .173 .214 .738 .347 .040 .295 .680 .250 .297 .988 .881 .777 .852 偏相关 .593 -.240 .838 .920 .363 .498 -.459 .142 -.385 .729 .424 .174 -.461 .462 -.007 -.070 -.133 .087 容差 .971 .546 .080 .309 .020 .779 .292 .626 .541 .042 .019 .602 .263 .594 .393 .012 .526 .137 VIF 1.030 1.832 12.542 3.238 49.373 1.284 3.428 1.597 1.850 23.638 51.834 1.660 3.798 1.685 2.544 86.500 1.900 7.293 最小容差 .971 .546 .080 .309 .020 .779 .292 .199 .261 .042 .019 .191 .219 .040 .031 .012 .037 .022 a. 模型中的预测变量: (常量), 粮 食。 b. 模型中的预测变量: (常量), 粮 食, 干鲜果品。 c. 模型中的预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。 d. 因变量: 农林牧渔业总产值 表7显示各模型的偏回归系数B、标准差Std. Error、常数Constant、标准化偏回归系数Beta、回归系数显著性检验的t值和P(Sig)值。按照模型3建立的多元线性回归方程为:

Y?84.865?0.576X1?0.507X5?0.094X4 (2)

方程中的常数项?0?84.865,偏回归系数?1?0.576、?5?0.507、?4?0.094,经t检验?0、?1、?5、?4的P值分别为0.000、0.000、0.005、0.040,按α=0.10水平,均有显著性意义。

表7 回归计算过程中各方程系数表 系数a 非标准化系数 模型 1 (常量) 粮 食 2 (常量) 粮 食 干鲜果品 3 (常量) 粮 食 B 127.089 .946 91.864 .725 .717 84.865 .576 标准 误差 6.210 .057 6.248 .043 .116 5.344 .065 标准系数 试用版 t 20.466 .986 16.677 14.704 .756 .277 16.940 6.203 15.879 .600 8.794 Sig. .000 .000 .000 .000 .000 .000 .000 共线性统计量 容差 VIF 1.000 1.000 .309 .309 3.238 3.238 .072 13.846 干鲜果品 蔬 菜 .507 .094 .117 .036 .196 .232 4.323 2.607 .005 .040 .164 .042 6.103 23.638 a. 因变量: 农林牧渔业总产值

表8显示残差统计的结果,标准化残差的绝对值最大为1.286,小于设定值3。如超过3,则显示具体观察单位Case number 的标准化残差,以帮助发现离群点。

表8 残差统计量

残差统计量a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差 已删除的残差 Student 化 已删除的残差 Mahal 距离 Cook 的距离 居中杠杆值 极小值 179.029 -1.557 .632 175.986 -2.1642 -1.286 -1.554 -3.1640 -1.836 .368 .000 .041 极大值 272.737 1.509 1.367 270.603 1.7404 1.034 1.599 4.6143 1.928 5.036 1.239 .560 均值 226.620 .000 1.043 226.168 .0000 .000 .095 .4516 .127 2.700 .280 .300 标准 偏差 30.5678 1.000 .227 30.7402 1.3746 .816 1.098 2.5960 1.206 1.495 .385 .166 N 10 10 10 10 10 10 10 10 10 10 10 10 a. 因变量: 农林牧渔业总产值

图2 农业经济总产值的预测值与其Student化残差散点图

从图2的农业经济总产值的预测值与其Student化残差散点图中可以看到,所有观测量随机地落在垂直围绕±2的范围内,预测值与Student化残差值之间没有明显的关系,所以回归方程应该满足线性与方差齐性的假设且拟和效果较好。 3.3 线性回归的结果及分析

多元线性回归方程为:

Y?84.865?0.576X1?0.507X5?0.094X4

代入2006年的统计数据,得到

Y2006?84.865?0.576?125.5?0.507?88.7?0.094?486.7?247.87372006年农业经济总产值的实际值为8210.0亿元,误差为

e?247.8737?247.2?0.2725% 247.2可见回归模型的预测还是比较准确的。

4.总结与讨论

本文以北京市农业经济总产值为例,分析了农业经济总产值与各种农产品产量的关系。首先分析了农业经济总产值与各种农产量的线性关系,建立了线性回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

从最终的线性回归模型中我们可以看到,农业经济总产值可以由粮食产量,干鲜果品产量,蔬菜产量很好地解释。原因主要有两个方面,首先,粮食、干鲜果品产量、蔬菜产量属于日常消费量很大的基础性农产品,具有良好的价格稳定性,符合前文提到的第一个假设。然后,这三类产品在北京市的农业经济占较大的比重。这三个产业的产量浮动将影响整个北京市农业经济总产值。粮食和蔬菜产量占比重大的主要原因是北京市有大量居民,这些居民的日常饮食所带来的需求量很大,而随着生活质量的提高,对均衡营养的追求使得干鲜果品已成为人们生活中不可缺少的一部分。同时也可以看到,尽管猪牛羊肉的产量与农业经济总产值也具有一定的线性关系,但由于近年来猪肉价格飞涨,并不具有良好的价格稳定性,因而不满足前文的第一个假设,所以逐步回归分析过程中这一变量被剔除了。

然而,最终的结果显示,拟合曲线和实际点还是有一个一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他产业较显著的影响了农业经济总产值,有待进一步考察。 参考文献

[1] 孙海燕, 周梦, 李卫国, 冯伟, 应用数理统计, 北京航空航天大学, 2004.9 [2] 周复恭, 黄运成, 应用线性回归分析, 中国人民大学出版社, 1989.8 [3] 北京市统计信息网, 2009 北京市统计年鉴

[4] 倪青山, 刘小丹, SPSS 应用?实验教程, 湖南大学出版社, 2007


数理统计第一次大作业——回归分析(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:1.5全等三角形判定4

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: