贵州民族学院——统计学专业——毕业论文:广东农民收入影响因数的分析
(1).方程拟合优度。方程拟合好坏通常用拟合优度指标R2来反映。她被定义为:
R2?SSRSST?1?SSESST
(yi?y)2其中,SST??称为总离差平方和,SSR???(y2i?y)称为回归平方和,
2它表示来自自变量对总离差的贡献,SSE?自误差项对总离差的贡献,有:
SST=SSR+SSE
?(yi?yi)称为残差平方和,它表示来
拟合优度R2表示,因变量的总离差平方和有多少能通过自变量予以解释。也就是说,不能由自变量来解释的部分为:1-R2。显然R2越大,越接近于1表明拟合就越好。由于R2进行随着自变量个数的增加而增加,所以在多元回归的情况下,通常
2要对R2进行调整。调整后的R2用Radj表示,定义为:
2 Radj?1?SSE(n?p?i)SST(n?1)?1?(1?R)2n?1n?p?i
其中,当模型中不包含常数项时i=0,当模型中包含常数项时i=1。
(2).自变量与因变量之间的线性关系的F检验。在线性回归分析中,一般假定回归方程有以下形式:
E(X)=?0??1X1??2X2????pXp
即E(Y)与p个自变量之间线性相关,但实际情况怎么样呢,这需要检验,记
MSR?SSRp称为回归均方和,MSE?MSRMSESSEn?p?1,称为误差均方和,定义:
F?~F(p,n?p?1) 在给定的显著性水平?下,如果由样本观测值计算的F值大于F?(p,n?p?1),则自变量与因变量之间的具有显著性的线性关系,否则,变量间不具有显著的关系。在SAS系统中,一般通过F值对应的概率值来判断变量之间的线性关系的显著性。若F值对应的概率值小于给定的显著性水平,则因变量与p个自变量存在显著的线性关系,否则线性关系不显著。
(3).回归参数的显著性检验。在线性回归方程中,回归参数?j表示在其他自变量保
7
持不变的情况下,自变量Xj每变动一个单位,因变量Y的平均变动幅度,即Xj的单位变动对因变量的影响程度。因此,检验回归参数?j是否显著就至关重要,实际应用中通常作如下假设:
H0:?j?0,H1:?j?0
?~N(B,(X?X)?1?2),记: 由于B?1(X?X)?a00??a10?????a?p0a01a11?ap1????a0p??a1p? ???app???)??,Var(??)?a?2,??~N(?,a?2),j?0,1,2?,p,从而统计量: 则有:E(?jjjjjjjjj??j?)s(?j??j??ajj~t(n?p?1),j?0,1,2,?,p
t??当给定显著性水平为?下,若由样本观测值计算的t值的绝对值大于ta2(n?p?1),
则参数?j与0有显著性差异,否则,参数与0没有显著性差异。在SAS系统中一般通过t值所对应的p值来判断回归参数与0是否有显著性差异。若t值所对应的p值小于给定的显著性水平,则回归参数?j与0有显著性差异。
(4).残差分析。残差分析是诊断回归模型拟合状况的又一种易行而有效的方法。关于回归模型中的误差项的假定是:零均值、同方差、不相关和正态性,即?i~N(0,?2)。如果我们采用的回归模型对样本数据的拟合是良好的话,那么误差项?i的估计量??i,
?i,称为残差。因此rj应该近似服从就应该反映?i这种分布特性,记ri???i?yi?yN(0,?)2,从而标准化残差的估计量也应该近似服从标准化分布,即:
~N(0,1)
ei?riMSE 一般来说,如果回归直线拟合得较好,则残差图中应有95%
的点在ei=-2和ei=+2的两条直线之间随机分布。
8
贵州民族学院——统计学专业——毕业论文:广东农民收入影响因数的分析
第三章 影响农民收入的指标选择
3.1 变量的选取
针对农民收入进行多元回归分析,选取了广东农民人均纯收入为因变量,以农民人均生活消费品支出、耕地面积、农业劳动力数量和农业劳动力受教育程度为自变量进行分析,并进行了相关分析,以尽可能减少共线性相关。本文使用农民人均纯收入、人均生活消费品支出、农作物耕种面积、农业劳动力和农民的受教育水平这5个变量(表二)。
表二 广东农民人均纯收入的变化因素(1988~2008)
年份
人均纯收入 人均生活消费品支农作物耕种面积 农业劳动力 受教育程(元)
1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
808.70 955.02 1043.03 1143.06 1307.65 1674.78 2181.52 2699.24 3183.46 3467.69 3527.14 3628.93 3654.48 3769.79 3911.91 4054.58 4365.87 4690.49 5079.78
出(元)
684.67 870.59 932.63 942.40 1060.29 1391.01 1882.00 2255.01 2584.16 2617.65 2683.18 2645.94 2646.02 2703.36 2825.01 2927.35 3240.78 3707.73 3885.97
(万亩)
8063.89 8322.71 8507.35 8489.09 8231.36 7718.41 7807.99 7957.19 8156.22 8267.25 8310.73 7894.24 7735.35 7868.21 7207.37 7294.58 7211.96 7223.06 6573.85
(万人)
1561.30 1588.70 1600.90 1594.30 1541.50 1464.80 1433.40 1431.98 1439.80 1475.20 1507.80 1530.94 1572.07 1566.43 1556.29 1543.41 1524.97 1533.48 1534.53
度(%)
21.10 23.30 23.80 24.90 25.10 29.75 31.30 35.10 38.30 40.30 41.20 41.80 40.20 60.50 45.80 46.10 46.30 46.20 46.30
9
2007 2008
5624.04 6399.77
4202.32 4872.96
6544.56 6606.46
1532.30 1537.76
46.30 46.90
注:数据来源于《广东省统计年鉴2009》、《广东省农村统计年鉴2009》;
3.2 变量解释
农民人均纯收入是农业部制定的农村经济收益分配统计报表中的“农民人均所得”。农民人均纯收入是反映农民生活水平和消费水平的重要指标,是模型中的因变量。增加农民收入不仅要增加农民的总收入,还要增加农民的人均纯收入。
农民人均生活消费品支出在相当大的程度上反映了农村社会农民的消费水平和生活状况,当然这包含两个方面的含义:一是农民消费水平自身的提高促进了消费支出的提高;二是物价水平的不断提高也可导致农民生活消费品支出的上升。
耕地面积包括熟地、当年新开荒地、连续撂荒未满3年的土地和休闲地。作为农业生产的物质载体,土地是一项不可或缺的重要农业资源。耕地面积的多少,特别是常用耕地面积的多少,将在很大程度上影响农民收入的持续稳定增长,尤其广东省现处在一个农业密集型的产业现状。
农业劳动力指能够参加和从事农业生产劳动的劳动力数量的总和,是直接从事农业劳动,并以土地耕种为其生活主要来源的实有劳动力。劳动力数量是指农村中已达到劳动年龄和虽未达到年龄或已超过劳动年龄但可以经常参加农业劳动的人数。本研究选取的是第一产业农业的劳动力人数。
现代农业需要现代农民,而现代农民是具有一定文化素质的人,目前广东省农业科技成果转化率低,农业仍然以粗放型增长方式为主,农户对科技成果的运用能力较差,缺乏相应的经验、知识和技能,这都应归结到农民教育问题。教育能通过提高从事农业的家庭成员的劳动生产率,对农业收入的增长产生间接的促进作用。本研究采用每100个劳动者中受9年以上教育的人数来衡量农民的受教育水平。
10
贵州民族学院——统计学专业——毕业论文:广东农民收入影响因数的分析
第四章 广东省农民收入影响的实证分析
4.1 SAS程序的编辑:
在分析广东农民人均纯收入问题上采用的是多元线性回归模型,并利用SAS系统对数据进行多因素的线性相关回归分析,即利用多个挑选出来的影响因素,通过多元线性回归的分析方法进行分析。
所以用SAS的REG过程对数据进行处理。以变量income代表人均纯收入,expenditure代表人均生活消费品支出, area代表农作物耕种面积,labor代表农业劳动力,degree代表受教育程度,然后利用reg过程对变量expenditure、area、labor、degree关于income进行回归。
SAS程序编辑如下: data aa;
input expenditure area labor degree income@@; cards;
684.67 8063.89 1561.30 21.10 808.70 870.59 8322.71 1588.70 23.30 955.02 932.63 8507.35 1600.90 23.80 1043.03 942.40 8489.09 1594.30 24.90 1143.06 1060.29 8231.36 1541.50 25.10 1307.65 1391.01 7718.41 1464.80 29.75 1674.78 1882.00 7807.99 1433.40 31.30 2181.52 2255.01 7957.19 1431.98 35.10 2699.24 2584.16 8156.22 1439.80 38.30 3183.46 2617.65 8267.25 1475.20 40.30 3467.69 2683.18 8310.73 1507.80 41.20 3527.14 2645.94 7894.24 1530.94 41.80 3628.93 2646.02 7735.35 1572.07 40.20 3654.48 2703.36 7868.21 1566.43 60.50 3769.79 2825.01 7207.37 1556.29 45.80 3911.91 2927.35 7294.58 1543.41 46.10 4054.58
11