从图上可看出,检验误差项服从正态分布。
第三章 多元线性回归
3.11 初始数据:
y x1 编号
1 160 2 260 3 210 4 265 5 240 6 220 7 275 8 160 9 275 10 250
x2 70 75 65 74 72 68 78 66 70 65
x3 35 40 40 42 38 45 42 36 44 42
10
1 2.4 2 3 1.2 1.5 4 2 3.2 3
解:(1)用SPSS算出y,x1,x2,x3相关系数矩阵: 相关性 Pearson 相关性 y x1 x2 x3 y x1 x2 x3 N y x1 x2 x3 y 1.000 .556 .731 .724 . .048 .008 .009 10 10 10 10 x1 .556 1.000 .113 .398 .048 . .378 .127 10 10 10 10 x2 .731 .113 1.000 .547 .008 .378 . .051 10 10 10 10 x3 .724 .398 .547 1.000 .009 .127 .051 . 10 10 10 10 r=所以~
系数 模型 非标准化系数 B 1 (常量) 标准系数 t Sig. -1.974 B 的 95.0% 置信区间 下限 上限 零阶 相关性 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 176.459 -348.280 .096 -780.083.500 60 .556 .731 .724 .825 .687 .586 1.211 1.455 1.708 x1 x2 x3 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .535 2.465 .277 1.178 .100 .049 -.977 8.485 .053 14.149 .621 .350 .709 .444 .433 .212 .284 -13.4138.310 5 a. 因变量: y (2)
???348.28?3.754x1?7.101x2?12.447x3 所以三元线性回归方程为y11
模型汇总 模型 R 1 .898 a标准 估计的R 方 .806 调整 R 方 .708 误差 23.44188 R 方更改 .806 F 更改 8.283 更改统计量 df1 3 df2 6 Sig. F 更改 .015 a. 预测变量: (常量), x3, x1, x2。 (3) 由于决定系数R方=0.708 R=0.898较大所以认为拟合度较高
(4)
Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 549.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y
因为F=8.283 P=0.015<0.05所以认为回归方程在整体上拟合的好
(5)
系数 模型 非标准化系数 B 1 (常量) x1 x2 x3 a. 因变量: y 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .100 .535 2.465 .049 .277 1.178 .284 -.977 .053 -13.415 8.485 14.149 38.310 .556 .731 .724 .621 .709 .433 .350 .444 .212 .825 1.211 .687 1.455 .586 1.708 -348.280 标准 误差 176.459 标准系数 试用版 t Sig. 下限 -780.060 B 的 95.0% 置信区间 上限 83.500 零阶 相关性 偏 部分 共线性统计量 容差 VIF a-1.974 .096
(6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
12
去除x3后作F检验,得: Anova 模型 1 回归 残差 总计 平方和 12893.199 4059.301 16952.500 df 2 7 9 均方 6446.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y
由表知通过F检验 继续做回归系数检验 系数 模型 非标准化系数 B 1 (常量) -459.624 x1 x2 4.676 8.971 标准系数 t Sig. B 的 95.0% 置信区间 相关性 下限 -821.547 .381 3.134 上限 -97.700 8.970 14.808 零阶 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 153.058 1.816 2.468 .479 .676 -3.003 .020 2.575 3.634 .037 .008 .556 .731 .697 .808 .476 .672 .987 1.013 .987 1.013 a. 因变量: y
此时,我们发现x1,x2的显著性大大提高。
(7)x1:(-0.997,8.485) x2:(0.053,14.149) x3:(-13.415,38.310)
?*?0.385x1*?0.535x2*?0.277x3* (8)y(9) 残差统计量 a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差
极小值 175.4748 -1.438 10.466 188.3515 -25.19759 -1.075 -2.116 极大值 292.5545 1.567 20.191 318.1067 33.22549 1.417 1.754 13
均值 231.5000 .000 14.526 240.1835 .00000 .000 -.123 标准 偏差 38.95206 1.000 3.127 49.83914 19.14022 .816 1.188 N 10 10 10 10 10 10 10 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: y -97.61523 -3.832 .894 .000 .099 50.88274 2.294 5.777 3.216 .642 -8.68348 -.255 2.700 .486 .300 43.43220 1.658 1.555 .976 .173 10 10 10 10 10
所以置信区间为(175.4748,292.5545)
(10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好
3.12 解:在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。
在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每增加一个单位,GDP就增加1.709个单位。
第四章 违背基本假设的情况
4.9 初始数据:
y 用户序号 x
1 679 2 292 3 1012 4 493 5 582 6 1156 7 997 8 2189 9 1097 10 2078 11 1818 12 1700 13 747 14 2030 15 1643 16 414 17 354
0.79 0.44 0.56 0.79 2.7 3.64 4.73 9.5 5.34 6.85 5.84 5.21 3.25 4.43 3.16 0.5 0.17
14