河南大学
数学与信息科学学院
2011~2012学年第二学期
应用统计软件
实验论文
题目 姓名 年级 成绩 基于spss分析的河南省人口预测模型 *** 2009 学号 200922**** 专业 数学与应用数学(金融) 合分人
基于spss分析的河南省人口预测模型
摘 要
本文利用河南省2011年统计年鉴中河南总人口数的历史数据,借助统计软件SPSS分别建立了线性回归模型和Logistic人口模型,根据模型首先对河南省2008—2009年总人口数进行了预测,并与实际值进行了对比,结果显示模型拟合效果很好,然后运用模型对2012—2014年河南省总人口数进行了预测,两个模型得到的预测结果分别为(10192.27,10252.615,10312.96)和(10007.86,10058.41,10120.73),最后结合预测结果对河南省人口增长和经济建设协调发展提出建议。
关键字:线性回归 Logistic人口模型 协调发展
一、问题的提出
中原是中华民族的重要发祥地,自古以来人口密集。新中国成立后人口的增长速度进一步提高。1953 年第一次人口普查时河南省总人口为4 425万人, 2009 年增加到9 967万人, 2010 年7 月河南的总人口破1 亿大关,成为我国第一个人口超1 亿的省份。人口是经济发展的基础,但也可能成为经济发展和实现社会和谐的包袱。改革开放以来,河南省的人口压力不仅始终存在,而且持续增大。计划生育政策的实施,虽然使人口总量达到1 亿的时间推迟了13 年,但目前河南人口形势依然不乐观。解决好人口可持续发展问题,依然是河南省今后许多年的重点工作之一。人口是制约经济发展的一个重要因素,如何协调人口发展与经济建设之间的关系,实现中原崛起有着重要的现实意义。
下面将利用河南省2011年统计年鉴中河南总人口数的历史数据,通过建模对2012—2014年河南省总人口数进行预测。
二、模型的基本假设及数据预处理 基本假设:
(1)行政区域保持不变;
(2)社会经济平稳发展;
(3)所研究人口为封闭人口(不考虑流动人口);
(4)未来人口的死亡模式不变(不考虑战争、瘟疫及自然灾害等灾难的影响)。 数据的预处理:
由于1958—1978年之间的历史数据不连续,另外由于1978年以来实行家庭联产承包制导致人口快速增加,因此建立模型时没有使用1958—1977年之间的数据。
三、模型的建立与求解 (一)线性回归模型[1] 1、线性回归模型的建立
人口发展的某一短暂时期会呈现线性增长,即每年的自然增长率大致一直,因此可以用一元线性回归模型对未来短期进行人口预测。一元线性回归模型如下:
P(t)?a?bt (1)
其中t为年份,P(t)为t年的人口总数,a、b为模型参数。 2、线性回归模型参数的确定
一元线性回归模型的求解比较简单,根据历史数据利用最小二乘法就可以确定a、b的值:
a?P(t)?bt (2)
b?
[?(tP(t))?(?t)(?P(t))]n (3) 2(t)[?(t2)??]n其中n为样本容量,其余与(1)式中一样。
利用附录中河南省历年总人口数据,分别以1988—2007年(20个样本)、1998—2007年(10个样本),借助SPSS软件拟合出两个个河南省人口一元线性回归模型,结果见表一:
表一:一元线性回归模型
模型 数据序列 模型表达式 R2 模型一 1988—2007年 P(t)?77.06t?144689.25 0.978 模型二 1998—2007年 P(t)?60.345t?111221.873 0.987 由拟合优度R2可以看出两个模型都比较好,在此选取模型二对河南省2008—2009年的人口进行预测并与实际值进行比较,结果如表二:(单位:万人)
表二:2008—2009年人口实际值与预测值 年份 2008 2009 实际值 9918 9967 预测值 9950.89 10011.235 由上可以看出预测结果比较合理,可以用此模型进行预测,表三为用该模型对河南省2012—2014年人口总数的预测:(单位:万人)
表三:2012—2014年河南省总人口预测 年份 预测值 2012 10192.27 2013 10252.615 2014 10312.96 (二)Logistic人口模型 1、Logistic人口模型的建立
Logistic曲线是荷兰生物学家Verhulst为研究人口发展过程于1837年提出的,Logistic人口模型考虑到了人口发展的有限性及人口增长规律:随着人口增加,增长率逐渐下降。因此可以很好的对人口总数进行预测,Logistic人口模型的一般表达式为:
dP(t)?rP(t)?qP(t)2 (4) dt式中q为约束参数,对上式求解并进行数学变换后得到如下表达式:
bt P(t)?Pm/(1?ae) (5)
式中P(t)为t年的人口总数,Pm为人口上限,a、b为模型参数。 2、模型参数值的确定
在Logistic 模型的参数求解过程中, 合理地确定极限人口规模Pm是模型拟合精度的关键。从式中可以看出,Logistic 模型有三个参数, 普通的回归无法实现数据的拟合。一个比较简单常用的Logistic模型求解方法是三点法,但是三点法存在模型拟合精度较低的问题。另一个有效的办法是估计一个初始的人口极限规模Pm,将其带入(5)式进行回归分析,然后反复调整Pm值,直到模
型的拟合优度接近最大值,如优选法、0.168 搜索法。
根据河南省人口历史数据大致可以确定河南省人口上限在10000—12000万人之间,利用SPSS软件反复选值拟合,知当Pm=10450时达到最优,输出结果如下: 模型描述 模型名称 因变量 方程 自变量 常数 其值在图中标记为观测值的变量 a. 该模型要求所有非缺失值为正数。 b. 对于所有因变量,理论上限设置为 10450。 1 1 MOD_13 人口总数 Logistic YEAR_ 包含 未指定 a,b 模型汇总和参数估计值 因变量:人口总数 模型汇总 方程 Logistic 自变量为 YEAR_。 R 方 .997 F 9452.592 df1 1 df2 28 Sig. .000 参数估计值 常数 1.957 b1 .929 上述模型的拟合优度达到99.7%,用模型表达式为:
P(t)?10450/(1?1.957e?0.929t) (6) 利用上述模型,对河南省2008—2009年的人口总数进行预测并与实际值进行对比,结果如表四:
表四:河南省2008—2009年的人口总数预测值与实际值
年份 2008 2009 实际值 9918 9967 模型预测值 9915.24 9969.78 可以看出,拟合效果很好,用此模型对河南省2012—2014年人口总数进行预测结果如表五:
表五:河南省2012—2014年人口总数预测值