基于回归分析的人口预测(2)

2019-08-20 18:17

理学院统计系课程实验论文 1995 1994 1993 1992 1991 1990 1989 1988 1987 1986 1985 1984 1983 1982 1981 1980 46661.8 44510.1 45648.8 44265.8 43529.3 44624.3 40754.9 39408.1 40297.7 39151.2 37910.8 40730.5 38727.5 35450 32502 32055.5 61129.8 48459.6 35524.3 27068.3 21895.5 18774.3 17090.3 15101.1 12102.2 10308.8 9039.9 7226.3 5975.6 5333 4898.1 4551.6 17.12 17.7 18.09 18.24 19.68 21.06 21.58 22.37 23.33 22.43 21.04 19.9 20.19 22.28 20.91 18.21 6.57 6.49 6.64 6.64 6.7 6.67 6.54 6.64 6.72 6.86 6.78 6.82 6.9 6.6 6.36 6.34 121121 119850 118517 117171 115823 114333 112704 111026 109300 107507 105851 104357 103008 101654 100072 98705

1.3 一元回归分析

定义1.1 回归分析（regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。

1.3.1 绘制总人口与粮食产量的散点图

理学院统计系课程实验论文图1-1 粮食产量与总人口散点图

1.3.2 设定理论模型

根据图1-1随着粮食产量的增加，总人口的数量增加，且各样本点大致落在一条直线附近，故可以采用公式：

y??0??1x?? (1-1) 一元线性回归理论模型，对数据进行一元回归分析。

1.3.3 回归诊断

表1-1 模型摘要模型 1 R .909 aR 平方 .826 調整後 R 平方標準偏斜度錯誤 .821 4985.99669 a. 預測值：（常數），粮食产量（万吨）根据表1-1模型摘要表可以看到，r?0.909，说明以粮食产量为唯一因变量与总人口的拟合程度很高。

表1-2 系数非標準化係數模型 1 （常數）粮食产量（万吨） a. 應變數\\: 人口（万人） B 53054.404 1.468 標準錯誤 5500.013 .117 .909 標準化係數 Beta T 9.646 12.513 顯著性 .000 .000 根据表1-2系数表，将系数带入公式（1-1）可得出回归模型公式：

??53054.404?1.468x y??142165.8355 用一元回归模型对2014年的总人口进行预测，的到的预测值y

理学院统计系课程实验论文第2章多元线性回归

定义2.1 在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。

2.1 数据中心化标准化

数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

图2-1 标准化结果

2.2 多元回归模型建立

多元回归模型公式：

y??0??1x1??2x2?...??pxp??

对数据进行多元回归分析，结果如图2.2

表2-1 模型摘要模型 1 R .972 aR 平方 .944 調整後 R 平方標準偏斜度錯誤 .936 2967.56830 a. 預測值：（常數），死亡率（%）, 出生率（%）, 粮食产量（万吨）, GDP（亿元）

理学院统计系课程实验论文表2-2 變異數分析a 模型 1 迴歸殘差總計平方和 4448849243.984 264193847.616 4713043091.600 df 平均值平方 4 1112212310.996 30 34 8806461.587 F 126.295 顯著性 .000 b a. 應變數: 人口（万人） b. 預測值：（常數），死亡率（%）, 出生率（%）, 粮食产量（万吨）, GDP（亿元）

表2-3 係數非標準化係數模型 1 （常數）粮食产量（万吨） GDP（亿元）出生率（%）死亡率（%） a. 應變數\\: 人口（万人） B 124574.667 1.045 -.005 -1460.798 -4060.272 標準錯誤 21501.729 .152 .008 262.207 3649.700 .647 -.078 -.496 -.091 標準化係數 Beta T 5.794 6.893 -.635 -5.571 -1.112 顯著性 .000 .000 .531 .000 .275 a

根据表2-1可知R=0.972，拟合度高，所以能用该模型进行预测，同时模型的检验P值sig<0.05，说明该模型显著可信；根据表2-3得到多远线性回归方程:

??124574.667?1.045x1?0.005x2?1.460.798x3?4060.272x4 y

??138182.2403，与真实值相差同时，根据方程得到14年总人口预测值ye?1400.25403.

2.3 逐步回归法

定义2.2 逐步回归法：逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入，每引入一个变量后，对已引入变量进行逐个检验，当原引入变量因后引入变量变得不显著时，对其进行剔除，保证最后所得的回归子集是最优回归子集。

根据图2.2可知，变量GDP与死亡率未通过显著性检验，因此采用逐步回归的方法对方程进行优化。

表2-4 逐步回归係數a 非標準化係數模型 1 （常數）出生率（%） 2 （常數） B 165146.388 -2687.949 108407.805 標準錯誤 3543.313 210.086 8355.072 -.912 標準化係數 Beta T 46.608 -12.794 12.975 顯著性 .000 .000 .000 6

理学院统计系课程实验论文出生率（%）粮食产量（万吨） 3 （常數）出生率（%）粮食产量（万吨）死亡率（%） a. 應變數\\: 人口（万人） -1534.270 .816 134678.878 -1366.202 1.012 -5681.557 211.155 .116 14308.542 213.615 .141 2580.897 -.464 .626 -.127 -.521 .505 -7.266 7.052 9.412 -6.396 7.184 -2.201 .000 .000 .000 .000 .000 .035 根据图表2-4，经过逐步回归，剔除了GDP这一变量得到一个拟合度更好的方程:

??134678.878?1012x1?1366.202x3?5681.557x4 y??138506.21662 与真实值相差e?172.21662 同时得到2014年总人口的预测值y对比一般多元回归方法的出的模型预测值与运用了逐步回归后的预测值，发现不用逐步回归的预测值更接近真实值；其原因主要有三方面：

1.我国的人口普查为10年一次，其数据主要也是通过预测的出，所以数据本身存在较大的误差；

2.在实际问题中，自变量之间通常存在相关性，当相关程度严重时称为多重共线性。自变量之间的多重共线性会对回归产生极大的影响；

3.人口预测不适合采用线性多元回归的方法进行预测。

2.4 多重共线性

定义2.3 多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

多重共线性产生原因：

（1）经济变量相关的共同趋势；（2）滞后变量的引入；（3）样本资料的限制。影响：

（1）完全共线性下参数估计量不存在；

（2）近似共线性下OLS估计量非有效，多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)如果方差膨胀因子值越大，说明共线性越强。相反因为，容许度是方差膨胀因子的倒数，所以，容许度越小，共线性越强。可以这样记忆：容许度代表容许，也就是许可，如果，值越小，代表在数值上越不容许，就是越小，越不要。而共线性是一个负面指标，在分析中都是不希望它出现，将共线性和容许度联系在一起，容许度越小，越不要，实际情况越不好，共线性这个“坏蛋”越强。进一步，方差膨胀因子因为是容许度倒数，所以反过来；

（3）参数估计量经济含义不合理；

共4页:

基于回归分析的人口预测(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档