统计系课程实验论文
基于回归分析的人口数量预测
学 号: 姓 名: 年 级: 专 业: 课 程: 指导教师: 完成日期:
2014962005 李洋 2014级 统计学 回归分析 姜喜春 2016年6月19日
目 录
摘 要 .................................................................................................................................... I 前 言 ................................................................................................................................... 1 第1章 一元线性回归 ......................................................................................................... 2
1.1 指标的选择 ............................................................................................................ 2 1.2 样本确定 ................................................................................................................ 2 1.3 一元回归分析 ........................................................................................................ 3
1.3.1 绘制总人口与粮食产量的散点图 ........................................................... 3 1.3.2 设定理论模型 ........................................................................................... 4 1.3.3 回归诊断 ................................................................................................... 4
第2章 多元线性回归 ......................................................................................................... 5
2.1 数据中心化标准化 .............................................................................................. 5 2.2 多元回归模型建立 .............................................................................................. 5 2.3 逐步回归法 .......................................................................................................... 6 2.4 多重共线性 ........................................................................................................ 7
2.3.1 多重共线性检测 ....................................................................................... 8 2.4 主成分分析 .......................................................................................................... 9
2.4.1 主成分分析模型建立 ............................................................................... 9
第3章 非线性模型 ......................................................................................................... 11
3.1 曲线回归 ............................................................................................................ 11
3.1.1 曲线拟合 ................................................................................................. 11 3.2 Logistic模型 ...................................................................................................... 13 结 论 ................................................................................................................................. 15 参考文献 ............................................................................................................................. 16
理学院 统计系 课程实验论文 摘 要
回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。同时依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。
众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等。
关键词:线性回归;非线性回归;logistic回归
I
理学院 统计系 课程实验论文 前 言
最早的形式回归的方法是最小二乘法 ,这是在1805年出版的勒让德 ,和高斯在1809年。 勒让德和高斯都采用的方法确定的问题,从天文观测,有关Sun的机构(主要是彗星,但后来也新发现的小行星)的轨道。 1821年,高斯发表最小二乘法理论的进一步发展,在包括高斯-马尔可夫定理的一个版本。
弗朗西斯·高尔顿在十九世纪的“回归”是杜撰来描述一种生物现象。 这种现象是高度高大的祖先的后代往往倒退下来,对一个正常的平均水平(这种现象也被称为向均值回归 )。 对高尔顿,,回归只有这个生物意义,Udny圣诞节和皮尔逊但他的工作,后来扩展到更一般的统计范围内。 在圣诞节和Pearson,工作的响应和解释变量的联合分布被假定为高斯 。 这个假设RA费舍尔在1922年和1925年,他的作品被削弱。费舍尔认为的响应变量的条件分布为高斯分布,但联合分布不一定要。
在这方面,费舍尔的假设是高斯1821年制定的。
在20世纪50年代和20世纪60年代,经济学家旧机电台计算器,计算回归。
1970年以前,有时长达24小时接收从一个回归的结果。
回归方法继续是一个活跃的研究领域。 在最近的几十年中,新的方法已经制定了稳健回归 ,回归涉及的相关反应,如时间序列 曲线和增长曲线 ,回归的预测或响应变量的曲线,图片,图表或其他复杂的数据对象,容纳不同的回归方法丢失的数据, 非参数回归 , 贝叶斯方法进行回归,回归的预测变量的测量误差,预测变量的观测回归,回归和因果关系的推论与类型。
1
理学院 统计系 课程实验论文 第1章 一元线性回归
1.1 指标的选择
影响人口增长的主要因素经济因素,经济因素对人口自然增长的作用主要表现在它决定了人口的增殖条件和生存条件,通过改变人口的出生率和死亡率来影响人口的自然增率。一般情况下,当人口数量不能满足经济发展对劳动力的需求时,人口自身的再生产必将会刺激;当人口数量超越了经济发展所能提供的消费总数后,人口自身的再生产必将受到遏制。在现代生产力水平下,人口的自然增长率往往随着经济水平的提高而下降。经济因素对人口机械增长也有重要影响。通常情况下,经济发达或发展速度较快的地区,对人口具有一种吸引力和凝聚力,人口机械增长为正值;相反,经济落后或经济发展速度缓慢的地区,对人口会产生一种排斥力和离散力,人口机械增长一般为负值。与此同时粮食产量、出生率、死亡率,也是影响人口增长的因素。
符号说明:用x1、x2、x3、x4表示粮食产量、GDP、出生率、死亡率。y表示总人口。
1.2 样本确定
通过查阅中国政府网,得到了1980年到2014年各因素的数据。
表1-1 样本数据
年份 2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 粮食产量 (万吨) 60702.61 60193.84 58957.97 57120.85 54647.71 53082.08 52870.92 50160.28 49804.23 48402.19 46946.95 43069.53 45705.75 45263.67 46217.52 50838.58 51229.53 49417.1 50453.5 GDP (亿元) 635910.2 588018.8 534123 484123.5 408903 345629.2 316751.7 268019.4 217656.6 185895.8 160714.4 136564.6 121002 110270.4 99776.3 90187.7 84883.7 79429.5 71572.3 2
出生率(%) 12.37 12.08 12.1 11.93 11.9 11.95 12.14 12.1 12.09 12.4 12.29 12.41 12.86 13.38 14.03 14.64 15.64 16.57 16.98 死亡率(%) 7.16 7.16 7.15 7.14 7.11 7.08 7.06 6.93 6.81 6.51 6.42 6.4 6.41 6.43 6.45 6.46 6.5 6.51 6.56 总人口 (万人) 136782 136072 135404 134735 134091 133450 132802 132129 131448 130756 129988 129227 128453 127627 126743 125786 124761 123626 122389