基于回归分析的人口预测(3)

2019-08-20 18:17

理学院统计系课程实验论文（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外；（5）模型的预测功能失效。变大的方差容易使区间预测的“区间”变大，使预测失去意义。

2.3.1 多重共线性检测

用SPSS 22.0对数据进行多重共线性检测

表2-5 共線性診斷變異數比例模型 1 維度 1 2 2 1 2 3 3 1 2 3 4 特徵值 1.972 .028 2.929 .068 .003 3.927 .070 .003 .001 條件指數 1.000 8.447 1.000 6.557 33.798 1.000 7.506 36.436 86.828 （常數） .01 .99 .00 .00 1.00 .00 .00 .15 .85 出生率（%）粮食产量（万吨）死亡率（%） .01 .99 .00 .18 .81 .00 .17 .79 .04 a .00 .06 .94 .00 .03 .74 .24 .00 .00 .03 .97 a. 應變數: 人口（万人）检测结果表2-5显示：（1）特征值有3个接近0，表明存在多重共线性；（2）条件指数有3个>10，表明可能存在多重共线性；

（3）在相关系数矩阵中，死亡率数值接近1可能存在多重共线性；

表2-6 排除共线性变量后的係數非標準化係數模型 1 （常數）出生率（%） 2 （常數）出生率（%）粮食产量（万吨） 3 （常數）出生率（%）粮食产量（万吨）死亡率（%） a. 應變數\\: 人口（万人） B 165146.388 -2687.949 108407.805 -1534.270 .816 134678.878 -1366.202 1.012 -5681.557 標準錯誤 3543.313 210.086 8355.072 211.155 .116 14308.542 213.615 .141 2580.897 -.464 .626 -.127 -.521 .505 -.912 標準化係數 Beta T 46.608 -12.794 12.975 -7.266 7.052 9.412 -6.396 7.184 -2.201 顯著性 .000 .000 .000 .000 .000 .000 .000 .000 .035 共線性統計資料允差 VIF a 1.000 1.000 .400 .400 2.502 2.502 .349 .241 .553 2.868 4.146 1.808 根据表2-6，剔除GDP这一变量后，其余变量的VIF全部小于10，排除变量间存在多重共线性的原因，不需要再次剔除变量。得到剔除共线性后的多元线性回归方

理学院统计系课程实验论文 ??134678.878?1.012x1?1366.202x3?5681.557x4 程：y2.4 主成分分析

定义2.4 主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。

主成分分析首先是由K.皮尔森对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析的主要原理是寻找一个适当的线性变换：

（1）将彼此相关的变量转变为彼此独立的新变量；

（2）方差较大的几个新变量就能综合反应原多个变量所包含的主要信息；（3）新变量各自带有独特的专业含义。住成分分析的作用是：（1）减少指标变量的个数；（2）决多重相关性问题

2.4.1 主成分分析模型建立

运用SPSS 22.0对数据进行主成分分析

表2-7 各变量所占权重起始特徵值元件 1 2 3 4 總計 3.040 .727 .152 .081 變異的 % 76.004 18.176 3.793 2.028 累加 % 76.004 94.179 97.972 100.000 總計 3.040 擷取平方和載入變異的 % 76.004 累加 % 76.004 擷取方法：主體元件分析。根据主成分分析结果可以看出前两个变量所占比重最多，二者的和所占比例为94.18%，所以可以采用前两个变量建立回归模型。

表2-8 回归係數非標準化係數模型 1 （常數）粮食产量（万吨） GDP（亿元） B 53075.711 1.468 2.494E-5 標準錯誤 9733.191 .235 .009 .908 .000 標準化係數 Beta T 5.453 6.252 .003 顯著性 .000 .000 .998 a9

理学院统计系课程实验论文 a. 應變數\\: 人口（万人）

根据表2-8，得到回归方程：

??53075.711?1.468x1?2.494*10?5x2y

??142180.52727万人。根据回归方程预测出2014年人口y因为：

1.主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

2.主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

所以预测的结果出现了更大的误差

理学院统计系课程实验论文第3章非线性模型

3.1 曲线回归

定义3.1 非线性回归是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。

确定两个变数间数量变化的某种特定的规则或规律；估计表示该种曲线关系特点的一些重要参数，如回归参数、极大值、极小值和渐近值等；为生产预测或试验控制进行内插，或在论据充足时作出理论上的外推。

3.1.1 曲线拟合

对国内总人口的拟合，选取总人口指标为因变量，单位为万人，拟合总人口关于时间t的趋势曲线。以1980年为基准年，取值为t?1,2014年t?35。

绘制总人口与变量t的散点图，如图3-1所示。

图3-1 总人口对t的散点图

从散点图可以看到，总人口大致符合三次函数形式，当人口的增长速度大致相同时，其趋势线就是三次函数形式。

理学院统计系课程实验论文

图3-2 拟合曲线图

通过观察图3-2，发现三次曲线模型拟合度最好，其次为线性和复合模型，故根据公式：

23y?b0?bt1?b2t?b3t

建立三次曲线模型。

表3-1 模型摘要 R 1.000 自變數為时间。 R 平方 .999 調整後 R 平方標準偏斜度錯誤 .999 365.498

表3-2 變異數分析迴歸殘差總計平方和 4708901835.390 4141256.210 4713043091.600 df 平均值平方 3 1569633945.130 31 34 133588.910 F 11749.732 顯著性 .000 自變數為时间。

表3-3 三次曲线系数非標準化係數標準化係數 Beta 1.609 -.571 -.076 T 28.230 -4.214 -.908 348.004 顯著性 .000 .000 .371 .000 时间时间 ** 2 时间 ** 3 （常數） B 1849.094 -17.683 -.070 96103.588 標準錯誤 65.501 4.196 .077 276.157

根据图表3-1，得到三次函数模型的R?1.000，说明拟合程度非常好；同时

共4页:

基于回归分析的人口预测(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档