·残差平方和(residuals sum of squares)
RSS=eTe?YTMY??TM?,(其自由度为n-p-1)
·σ2 的OLS估计量
s2?RSS?RMS (残差均方,residual mean square)
n?p?1·回归(方程)标准误(standard error of the regression (equation))
s?RSS (残差标准误,residual standard error)
n?p?1·平方和分解公式
当回归方程包含常数项时,可以证明
?i ?? ?yy ? ? yi ? y ? ? ? ? ? e i
222i?1i?1i?1nnn称这个等式为平方和分解公式。记
1??2SST???yi?y??YT?I???T?Y(称为总平方和,其自由度为n-1)
n??i?1n(其中,???1,?,1?T表示每个元素均为1的n维向量)
?i?y??SST?RSS(称为回归平方和,其自由度为p) SSreg???y2i?1n? SS? RSS则平方和分解公式又可写成:SST reg ,(n-1)=p+(n-p-1)。
平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。总平方和表示样本中因变量的总变异,回归平方和表示总变异中能够解释的部分,因此又称为解释平方和,回归平方和是由样本中自变量的变异产生的,回归平方和可表示回归的效应。残差平方和表示总变异中不能解释的部分,残差平方和是由不可观测的误差的波动产生的。
·决定系数(coefficient of determination, R square)
R2?1?RSS, SST当回归方程包含常数项时,由平方和分解公式有0?R2?1。当回归方程不包含常数项时,平方和分解公式不再成立,且有可能会出现 ? ? yi ? y ? ? ? ei 2,即
2i?1i?1nnSST?RSS,从而使R2变成负数。因此决定系数只能用于包含常数项的回归。
由平方和分解公式可知,因变量的变异由解释变量的变异和误差的变异两部分组成。决定系数R2度量了由解释变量变异(回归函数)决定的因变量变异的比例。或者说决定系数R2度量了解释变量(回归函数)能够解释的因变量变异的比例。 ·复相关系数(multiple correlation coefficient,multiple R )
RSS?)? R?1??corr(Y,YSST??yi?1ni?1ni?i?y??y?yn???22?i??y?y?i??yi?1
??y对只有一个自变量的一元线性回归,R2就是y与x的样本相关系数的平方,复相关系数就是y与x的样本相关系数的绝对值,即
?)2??corr?Y,X??2,R?corr(Y,Y?)?corr?Y,X? R2?corr(Y,Y??且自变量的回归系数和y与x的样本相关系数之间的关系为
1n?yi?y?2?n?1i?11?xi?x?2?n?1i?1n b1??corr?Y,X??rsysx
·修正决定系数(adjusted coefficient of determination, adjusted R square)
由假定2.1、假定2.2和假定2.4有
yi?xiT???i,Var?yi??Var?xiT???Var??i??Var?xiT????2
因此理论上,由自变量变异决定的因变量变异的比例(称为理论决定系数)为
理论决定系数?1?2?2Varyi??
RSS1n分别用s?和?yi?y?2来估计?2和Var(yi),得修正决定系数 ?n?p?1n?1i?12Radj?1?RSS/(n?p?1)
SST/(n?1)RMS
SST/(n?1)n?11?R2
n?p?1?1??1????n?1p R2?n?p?1n?p?1由决定系数R2的含义可知,决定系数R2越大,回归方程对样本拟合的越好。可以证明回归方程中包含的解释变量越多,残差平方和就越小,从而决定系数R2就越大。但在样本容量不变的情况下,回归方程中包含的解释变量越多,对未知系数向量的估计就越不精确,因此并不是回归方程中包含的解释变量越多越好。而修正决定系数综合考虑了解释变量个数和对样本拟合的程度这两方面的因素。 ·非中心化R2(Uncentered R2)
eTe?TY??eTe) R?1?T,(YTY?YYY2uc2显然0?Ruc非中心化R2的含义是解释变量的变异能够解释的因变量的变异?1,
的比例。在回归方程不包含常数项时,可用非中心化R2代替决定系数R2。
§2.6 最小二估计量的有限样本性质
·无偏性(unbiasedness):在假定2.1~假定2.3下
E?b|~x1,?,~xn???
·条件方差阵表达式(expression for the variance):在假定2.1~假定2.4下,
Var?b|~x1,?,~xn???2XTX???1??2C??2?cij?
·Gauss-Markov定理:在假定2.1~假定2.4下,OLS估计量b是有效的线性无偏估计
?,量。即对于任意的Y的线性函数构成的无偏估计量?都有
?|~ Va?rb|~x1,?,~xn??Va?r?x1,?,~xn?
·σ2 的OLS估计量的无偏性:在假定2.1~假定2.4下
Es2|~x1,?,~xn??2
??cov(b, e |~x1,?,~xn)=0
Var(b|X) ? Var ?b | ~ 1 , n ? ? s 2 ? ? ?1 ? s 2C?s2?cx?,~xX T Xij? (它是OLS估计量b的条件方差阵的条件无偏估计量)
·?kOLS估计的标准误(standard error)
SE(bk)=sckk (k=0,1,…,p)
为探讨OLS估计量b的精确抽样分布,我们还需对回归方程误差项的分布作出假定,经典线性回归模型假定误差项是正态的。 假定2.5(误差项的正态性(normality of the error term)) ??|~x1,?,~xn?~正态分布
·观测向量Y的分布:在假定2.1~假定2.5下 ?Y|~x1,?,~xn?~N?X?,?2In? ·残差向量的分布:在假定2.1~假定2.5下 ?e|~x1,?,~xn?~N?0,?2M?
·估计量的抽样分布:在假定2.1~假定2.5下
?1??b???|~x1,?,~xn?~N?0,?2?XTX???N?0,?2C?
·?k的置信区间
bk?SE?bk?t1??2?n?p?1?
·?k显著性检验(对H0:?k?0vsH1:?k?0的检验)的统计量
tk?bk~t?n?p?1? (k=0,1,…,p) SE?bk?·检验线性约束H0:R??r(R与r为已知,#r×(p+1)矩阵R是满行秩的)的F统计量
T?Rb?r? F =
?R?XTX??1RTs2??Rb?r?/#r
?1T? RVar ? ? Rb ? r ? ?b | X ?R T ? ? ? r ?/# r (Wald检验统计量) Rb?1 ??RSSR?RSSU?/#r~F?#r,RSSU/?n?p?1?n?p?1? (似然比检验统计量)
其中,RSSU=RSS表示无约束最小二乘估计的残差平方和,RSSR表示在线性约束R??r下最小二乘估计的残差平方和,即
~minQ?RSSR ≡ ~
R??r~??·回归方程显著性检验(对H0:?1????p?0的检验)的F统计量 F??SST?RSS?/p?SSreg/p?MSreg RSS/?n?p?1?RSS/?n?p?1?RMSn?p?1R2 ?~F?p,n?p?1?
p1?R2(其中,MSreg?SSregp称为回归均方)
·最大似然估计(maximun likelihood estimators,ML估计)