北京市农业经济总产值的逐步回归分析
姓名: 学号:
摘 要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。
关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS
1. 引言
农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。
在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。以北京地区为例,2005年的农业总产值为1993年的6倍。因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。
表1 北京市农业经济产值及各产品产量统计数据
年 份1999200020012002200320042005200620072008农林牧渔业总产值(亿元)180.6188.6202.2213.5224.7234.9239.3247.2261.3273.9粮 食(万吨)5870.282.394.9102.1104.9109.2125.5144.2161棉 花(万吨)0.20.20.30.30.30.80.20.20.20.1油 料(万吨)2.83.84.32.63.32.92.52.22.22.2蔬 菜(万吨)321.3340.1341.2373.1419.8444.1466.3486.7511527.4干鲜果品(万吨)60.26671.978.784.190.993.988.791.189.8猪牛羊肉(万吨)25.926.927.130.230.931.7333437.239.1禽蛋产量(万吨)15.81615.615.216.215.91615.215.615.2水产品(万吨)7.67.57.47.47.16.76.45.466.1 本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网http://www.bjstats.gov.cn)。
2. 线性回归模型的建立
2.1 线性回归模型的假设
为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。但是为了便于研究,我们可以先
假定一些前提条件,然后在这些条件下得到简化后的近似模型。
以下我们假定两个前提条件:
1) 农产品的价格是不变的。这样我们可以认为每一种农产品的总产值将与产品的总产
量成正的线性关系。 2) 每一种农产品的总产值对于农业经济总产值的贡献都是很大的。因此可以根据每种
产品的总产值预测农业经济总产值。即农业经济总产值与每种产品的总产值成正的线性关系。 由以上两个假设,我们可以建立农业经济总产值与各种农产品生产量的线性回归模型,模型如下:
Y??1X1??2X2??3X3??4X4??5X5??6X6??7X7??8X8 (1)
其中,Y是因变量, Xi是自变量,?i是各个自变量的系数。各变量符号的定义见表2。
表2 线性回归模型中各变量的含义
Y X1 粮 食 X2 棉 花 X3 油 料 X4 蔬 菜 X5 X6 X7 X8 水产品 农林牧渔业总产值 干鲜果品 猪牛羊肉 禽蛋产量 2.2 线性回归模型的验证
以上,我们通过假设两个前提条件得到了农业经济总产值与各种农生产量的线性回归模型。然而这些假设是否合理,模型又是否能很好的近似实际的经济情况,我们需要进一步的验证。作数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图1所示。
(a) (b)
(c) (d)
(e) (f)
(g) (h)
图1 因变量与各自变量的散点图
(a)农业总产值与粮食产量散点图;(b)农业总产值与棉花产量散点图;(c)农业总产值与油料产量散点图; (d)农业总产值与蔬菜散点图;(e)农业总产值干鲜果品产量散点图;(f)农业总产值与猪牛羊肉产量散点图;
(g)农业总产值与禽蛋产量散点图;(h)农业总产值与水产品产量散点图
从图1中不难发现,农业经济总产值与粮食产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量具有良好的线性关系,而与棉花产量、油料产量和禽蛋产量没有明确的线性关系。水产品产量虽然与农业经济总产值呈现较强的线性关系,但是二者是负相关的,即布产量越大,农业经济总产值越小,这样不符合我们建立线性回归模型的初衷,也与建立模型的两个假设相背。
经分析,某些变量与农业经济总产值不呈正的线性相关的原因主要有两个:
1) 与第一个假设相背。即这些农产品的价格并不是一个常数,而会随着时间的推移、
生产工艺的改进、产品的淘汰等原因产生变动。当价格变动范围较大时,产品的总产值和总产量就不是线性关系了,应当用别的模型来近似。 2) 与第二个假设相背。即这些农产品的总产值对于农业经济总产值的贡献非常小,以
至于某种农产品总产值的变化不足以引起农业经济总产值的变化。如图1,可以明显发现最后三种轻农产品的产量与农业经济总产值都不具有良好的正的线性关系,而前六种重农产品中有五种与农业经济总产值呈现强的线性关系,说明重农在农业经济中占的比重比轻农要大。 在后来的逐步回归分析结果中我们可以看到,这些不符合假设条件,与农业经济总产值呈弱的或者负的线性关系的自变量都被排除到回归模型之外了。但是并不是说所有与因变量呈强线性关系的自变量都在回归模型中,在最终确定回归方程之前还应当应当用逐步回归方法进行分析。
3.逐步回归分析
3.1 线性回归的方法
线性回归是描述一个因变量Y与一个或多个自变量X之间的线性依存关系。根据一批样本值来估计这种线性关系,建立回归方程,用回归方程进行预测和控制。在多元线性回归分析中,选择“最优”回归方程的方法有强行进入法、消去法、向前选择法、向后剔除法和逐步回归法。
1) 强行进入法:选择的自变量全部进入回归模型。
2) 消去法:建立回归方程时,根据设定的条件剔除部分自变量。
3) 向前选择法:从模型中无自变量开始,然后设定判据,每次将一个最符合判据的变
量引入模型,直至所有符合判据的变量都进入模型为止。 4) 向后剔除法:先建立全模型,然后设定判据,每次剔除一个最不符合进入模型判据
的变量。 5) 逐步回归法:向前选择法和向后剔除法的结合,先设定判据,选择符合判据且对因
变量贡献最大的自变量进入回归方程,然后根据向后剔除法,将模型中贡献最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的都不符合进入模型的判据为止。本实验采用逐步回归法。 3.2 线性回归的结果及分析
利用表1中的数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。
表3中可以看出粮食产量、蔬菜产量和干鲜果品产量这三个自变量经过逐步回归过程被选择进入了回归方程。选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。选择的过程是,最先引入了变量X1,建立了模型1;接着引入变量X5,没有变量被剔除,建立了模型2(含有X1、X5);最后引入变量
X4,没有变量被剔除,建立了模型3,故最终的模型中含有变量X1、X5、X4。
表3 引入或从模型中剔除的变量
输入/移去的变量a 模型 1 2 3 输入的变量 粮 食 干鲜果品 蔬 菜 移去的变量 方法 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 a. 因变量: 农林牧渔业总产值
表4 拟合过程小结
模型汇总 模型 1 2 3 R .986a .998b .999c R 方 .972 .996 .998 调整 R 方 标准 估计的误差 .969 .994 .997 5.4267 2.2761 1.6835 a. 预测变量: (常量), 粮 食。 b. 预测变量: (常量), 粮 食, 干鲜果品。 c. 预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。
表4显示各模型的拟合情况,模型3的复相关系数R=0.999,可决系数R=0.998,调整可决系数为0.997,估计值的标准差为1.6835。可见模型3的拟合度较高,变量X1、
2X5、X4的作用显著。
表5显示各模型的方差分析结果。方差分析结果表明,当回归方程为模型1、2、3时,其显著性概率值均小于0.001,即拒绝总体回归系数均为0的原假设。因此,最终的回归方程应当包含粮食产量, 干鲜果品产量, 蔬菜产量这3个自变量,且方程拟和效果很好。