证明:因为 SSy?n?(yi?1ni?i)?(y?i?y)]2 ?y)??[(yi?y2i?1n?i)??(y?i?y)?2?(yi?y?i)(y?i?y) ??(yi?y22i?1i?1i?1nn?i?a?bxi,y?a?bx与(6-4)式,得 又因为 由y
?(yi?1nni?i)(y?i?y)??(yi?a?bxi)(bxi?bx) ?yi?1n ?b?(yi?1i?a?bxi)xi?bx?(yi?a?bxi)=0
i?1n所以 SSy?SSr?SSR (6-11) 其中 SSR??i?y)??[(a?bxi)?(a?bx)] ?b?(y22i?1i?1nn2?(xi?x)2?bi?1nSPxySSxSSx?bSPxy
对于SSR和SSr的计算常用公式(6-12)和(6-13):
SSR?b2SSx?bSPxy (6-12)
其中,b2SSx直接反映出y受x的线性影响而产生的变异,而bSPxy的算法则可推广到多元线性回归分析。
SSr?SSy?SSR (6-13)
2.2.1.2 自由度的分解
对于上述三种离差平方和相应的自由度可作以下分析:
SSy是依变量y的离均差平方和,应满足约束条件?(y?y)?0,故其自由度为dfy?n?1。
SSr就是(6-3)所示的离回归平方和Q,它反映了包括x对y的非线性影响及其它一切未加控制的随机
因素而导致的y的变异。由(6-5)式可知,SSr应满足两个独立的线性约束条件?(yi?y?i)?0 与
?(yi,故其自由度为dfr?n?2。 ?i)xi?0(亦即计算SSr时用了a和b两个估计值)?ySSR反映了由x对y的线性影响引起的数据yi的波动,称为回归平方和(sum of squares of regression)。
根据自由度的可分解性,SSR的自由度为dfR?dfy?dfr?(n?1)?(n?2)?1 (恰是自变量的个数)。实际上在线性回归分析中,回归自由度等于被估计的参数个数减1,亦即等于自变量的个数。
由上所述可知 dfy?drf? f (6-14) dR通常称SSRdfR?MSR为回归均方(mean square of regression),称SSrdfr?MSr为离回归均方(mean square due to deviation from regression)(即剩余均方)。
2.2.2 对回归方程的F检验
F检验实际上就是对回归关系的方差分析,其被检验的无效假设是H0:??0,备择假设是
6
HA:??0。检验统计量为F,即
F?SSR/1MSR (6-15)
?SSr/(n?2)MSr这个统计量服从自由度为df1?1,df2?n?2的F分布。具体检验过程,通常需列出方差分析表进行。
对于【6-1】,我们有
n=7 SSy=84.0343
SSR?bspxy=1.2550×66.7857=83.8161 SSr?SSy?SSR=84.0343-83.8161=0.2182 由各自由度为 dfT?n?1?6,dfR?1,dfr?n?2?5 得方差分析表6-4。
表6-4 方差分析表
变异来源 回归 离回归 总变异
SS 83.8161 0.2182 84.0343
df 1 5 6
MS 83.8161 0.0436
F 1922.39
**
F0.01 16.26
?=13.9585+1.2550x具有统计学上极显著的意义,是有效的。 由此可知,回归方程y2.2.3 对回归系数的检验
对直线回归关系的检验也可通过对回归系数b的t检验进行。为此,先介绍回归系数b的期望和方差。在模型(6-1)条件下,可以证明回归系数b的期望和方差分别为
E(b)??b?? (6-16)
2D(b)??b??2SSx (6-17)
222对于?b,如果?2未知,则用方差分析表中的离回归均方代之求得?b的估计值Sb。即
2Sb?MSrSSx (6-18)
22由?b或Sb可知,样本回归系数的变异度不仅取决于误差方差?2的大小,也取决于自变量x的变异程
度。如果自变量x的变异度大,即取值分散一些,则回归系数的变异就会小一些,亦即会稳定一些,由回
22归方程所估计出的值就会精确一些。反之,由回归方程所估计出的值的精确性就差一些。Sb(或?b)的
算术根称为回归系数标准误(standard error of regression coefficient),即
Sb?Sb2?MSrSSx (6-19)
对回归系数t检验的假设和检验统计量为
假设: H0:??0,HA:??0
7
检验统计量: t?b??b? (6-20) SbSb这个统计量服从自由度为n?2的t分布。
对于【例6-1】我们有
Sb?MSrSSx?0.043653.2146?0.0286
t?bSb?1.25500.0286?43.881??
因为t?43.881?t0.01(5)?4.032,所以b与0差异极显著,否定无效假设,结论与前面的F检验相同。比较这里的t值与前面的F值,容易看出t2=F,因而在直线回归分析中这两种检验方法是等加的。
2.2.4 对回归截距的检验
依变量对自变量的回归关系是通过回归系数来体现的,截距的大小对回归没有影响。当截距为0时,表示回归直线通过原点(0,0)。我们有时需要检验回归直线是否通过原点,即对?0是否为0进行检验,这可以利用t检验进行检验、,为此需要先求出截距a的期望和方差。不难证明:
E(a)??a??0 (6-21)
?1x2?D(a)??????? (6-22)
nSSx??2a222同样,如果?2未知,用方差分析表中的离回归均方代之求得?a的估计值Sa。即
?1x2?S?MSr??? (6-23)
?nSSx?2a22(或?a)的算术根称为回归截距标准误(standard error of regression intercept),即 SaSa??1x2?MSr??? (6-24)
nSSx??对回归截距进行t检验的假设和检验统计量为
假设: H0:?0?0,HA:?0?0 检验统计量: t?a??0a? (6-25) SaSa这个检验统计量服从自由度为n?2的t分布。
对于【例6-1】我们有
8
?1x2??15.42862?Sa?MSr????0.0436????0.1743
?753.2143??nSSx?t?aSa?13.95850.1743?80.083
因为t?80.083?t0.01(5)?4.032,所以a与0差异极显著,否定无效假设。
2.3 回归方程的拟合度与偏离度
通过对所建立直线回归方程的假设检验即使是显著或极显著也只是说明x、y两变量间存在一定的直线关系,但没有明确指出两者直线关系的密切程度,亦即没有对所建立的直线回归方程的好坏作出适当评价。回归分析中,对回归方程主要从拟合度和偏离度两个方面评价。
2.3.1 回归方程的拟合度
建立回归方程的过程叫拟合。回归方程是根据最小二乘原理(使离回归平方和最小)建立的,对于特定资料所得到的回归方程能够满足使离回归平方和最小的要求。不过我们应当明确,由不同资料所得到的回归方程的拟合度是有好坏之分的。如果资料中各散点的分布紧密围绕于一条直线,说明两变量之间的直线关系本来就紧密,此时所配合的回归方程的拟合度自然就好;反之,如果资料中各散点的分布比较分散,说明两变量之间的直线关系本来就松散,此时所配合的回归方程的拟合度自然就差。因此,我们需要一个指标来度量回归方程拟合度的好坏。这个指标就是决定系数(coefficient of determination)。其定义是
SPxybSP(SPxy)2SSSSxy2xR (6-26) r????SSySSySSySSxSSy显然,决定系数等于在依变量的变异中由自变量的影响而产生的变异所占的比例。这个比例越大,说
明自变量对依变量的影响也越大,用所得的回归方程进行估计或预测的效果也就越好。由(6-26)式容易看出
SPxy?0≤SSr≤1SSy?0≤r2≤1
即决定系数的取值范围在[0,1]之间。
对于【例6-1】,决定系数为
r2?SSRSSy?83.816184.0343?0.9974
2.3.2 直线回归的偏离度估计
离回归均方MSr是模型(6-1)中?2的估计值。离回归均方的算术根叫离回归标准误(standard error due to deviation from regression)(亦称回归方程的估计标准误),记为Syx,即
Syx??)?(y?y2(n?2)?MSr (6-27)
9
?与实际观测值y偏差离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值y的程度,于是我们把离回归标准误Syx用来表示回归方程的偏离度。离回归标准误Syx大表示回归方程偏离度大,Syx小表示回归方程偏离度小。
对于【例6-1】, Syx??MSr?0.21825?0.2089。
2.4 回归参数?0、?的区间估计
2.4.1 回归截距?0的区间估计
除了用a作为总体回归截距?0的一个估计值外,还可对?0进行区间估计,即求?0的置信区间。由于
t?(a??0)Sa?t(n?2)
所以
P??t?≤(a??0)Sa≤t???1??
或 P?a?t?Sa≤?0≤a?t?Sa??1?? 故?0的置信度为1??的置信区间是
a?t?Sa≤?0≤a?t?Sa (6-29)
式中t?仍是t分布(df?n?2)的两尾概率为?时的临界值。于是?0的置信度为1??的置信区间的下限和上限分别为
L1?a?t?Sa,L2?a?t?Sa
对于【例6-1】,取置信度1???0.95(??0.05),t0.05(5)?2.571,a?13.9585,Sa?0.1743置限分别为
L1?13.9585?2.571?0.1743?13.5104 L2?13.9585?2.571?0.1743?14.40662.4.2 回归系数?的区间估计
除了用b作为总体回归系数?的一个估计值外,也可对?进行区间估计,即求?的置信区间。由于
t?(b??)Sb?t(n?2)
所以
P??t?≤(b??)Sb≤t???1??
或 P?b?t?Sb≤?≤b?t?Sb??1??
10