Chapter1 线性回归模型的OLS估计(2)

2020-04-14 01:17

佳线性无偏估计量（BLUE）。

4．方差来源

?的方差对于统计推断以及经济解释都是至关重要的。方差越大，说明估计量越不精确，β因此参数的置信区间就越大，假设检验也就越不准确。假设关注变量x2，设DGP为

y?X1β10?x2?20?u，模型设定为y?X1β1?x2?2?u。根据FML定理，

??[x'Mx]?1[x'My]?212122?[x2'M1x2]?1[x2'M1(X1β1?x2β2?u)]?[x2'M1x2][x2'M1x2β2?x2'M1u]??2?[x2'M1x2]?1x2'M1u?1

其方差为：

?)?E?(x'Mx)?1x'Muu'Mx(x'Mx)?1?Var(?21121222?212???????????????(x2'M1x2)20?1

其中，(x2'M1x2)表示x2对X1回归的残差平方和。因此，方差也可以表述为：

?02?022?1?Var(?2)??0(x2'M1x2)?? 1.29 SSE2(1?R22)SST2其中，SSE2、R22表示x2对X1回归的残差平方和与可决系数，SST2??t?1(x2t?x2)表示?的方差来源于三部份：回归标准差σ02、解释变量之间的相关性、x2的离差平方和。因此，?2Tx2的波动。

回归标准差σ02体现了模型中噪音的成分，噪音越多（σ02越大），那么解释变量的影响就越难以判断，估计量的就越不准确。σ02是一个总体概念，与样本无关。但它是未知的，在后面的章节推导出其无偏估计量。给定被解释变量y，要想降低σ2，那就需要将更多的成分从随机扰动项中提取出来，方法只有一个：加入新的解释变量。但加入新的变量并不总是有效的，后面的章节还会详细地加以解释。

?)就越Ri2体现了xi与其他解释变量的线性相关程度。相关程度越高，Ri2就越高，var(?i?)→∝大。当Ri2→1时，var(?。这时，我们称之为多重共线性(multicollinearity)。

i当然，如果部分解释变量之间存在多重共线性，不会影响其他的参数估计。比如，在下面的模型中：

yt = ?0 + ?1 x1t + ?2 x2t+ ?3 x3t + ut

?)和var(??)会比较大。?)如果x2t与x3t高度相关，那么var(?但x2t与x3t的相关性对var(?23i22?)＝σ/SST1，与x2t、没有影响。事实上，如果x1t、x2t都与x3t不相关，即R1→0，那么var(?ix3t之间的相关性没有任何关系。因此，如果模型关注的是x1t，那么就没有必要在乎x2t、x3t之间的多重共线性问题。

?的方差越小。提高xi的离差平方给定其他条件不变的情况下，xi的离差平方和越大，β和的方法是增加样本容量。当样本容量不断增加时，离差平方和可以无限大，可以有力地降

?的方差。Arthur Goldberger针对人们面临多重共线性问题的困扰提出了小样本问题低β（micronumerosity），参见Goldberger(1991)。

1.2.4 区间估计

?的分布形式，我们已经知道了β如果进行区间估计的话，还需要估计? ?。根据前文所述，

?= Mu。残差平方和为 u?'u??(Mu)'Mu?u'M'Mu?u'Mu 1.30 u则残差的方差估计量

?'u?/(T?K?1)?u'Mu/(T?K?1) 1.31 s2?u因s2是一个标量，所以有

?'u?)?E[tr(u'Mu)]?E[tr(Muu')]E(u?tr[E(Muu')]?tr[ME(uu')]?tr[M?2I]??2tr[M]??2tr[I?X?X'X???X']??2?tr(I)?tr[X?X'X???X']???2?N?tr[?X'X???X'X]???2(N?K?1)?'u?/(N?K?1)]??2???2?u?'u?/(N?K?1)E[u其中tr(?) 表示矩阵的迹。tr(I ) = T，tr(X ( X ' X)-1 X ') = k+1。因为对于矩阵A B C有tr(ABC) = tr(BCA)= tr(CAB)，所以tr(X (X 'X )-1 X ' ) = tr( (X 'X)-1 X 'X ) = tr(I ) = k+1。由此可见s 2是? ?的无偏估计量。

?的方差估计量，就可以构建区间估计了。方法与第一章相同，此处不予赘述。得到了β 1.2.5

残差的分布

1.32

接下来我们进一步考察残差的特征。上面我们利用残差估计随机误差项的方差，后面很多统计检验都要利用残差。

??Mu，由u?)?0E(u?)?E(uu??')?E(Muu'M')??2MVar(u

可以得到几个基本结论。（1）每个残差都是所有误差项的线性组合。因此，虽然u同方差、

?是异方差、存在序列相关的。?i)??2(1?hii)。因此，残差的方差无序列相关，但u（2）Var(u小于随机误差项的方差。杠杆越高的观测值，残差的方差越小。与之相关联的另外两种残差为标准化残差与学生化残差。标准化残差为ei??，学生化残差为ui/(s1?hii)?i/(s(i)1?hii)。其中，s(i)表示删除第i个观测值后误差项的标准差。 ri?u1.2.6 标准化的回归系数

参数估计量是有量纲的，因此不能直接比较不同解释变量的相对重要性。如果要比较不同变量的相对重要性，可以首先将所有的解释变量进行标准化，这样便将其转换为没有量纲的概念了。

yt*?yt?yx?xku?u*?kt, xkt, ut*?t

s(yt)s(xt)s(ut)然后利用标准化后的解释变量进行回归，

*****yt*??0??1*x1t????kxkt?ut

*标准化的回归系数?0,?1*,?,?k*消除了量纲，可以直接用于比较不同变量重要性。

*思考题：标准化的回归系数?0,?1*,?,?k*与最初模型的回归系数(?0,?0, …, ?k) 存在什么关

系？

例 1.1 考察CEO年薪方程

Salary=?0+?1roe+?2sale+?3ros+u

其中，salary表示CEO年薪（千美元），roe为前三年的平均资产收益率（%），sale表示公司销售额（百万美元），ros表示股票收益率（%）。（数据文件：ceosal）（1）计算OLS估计量、95%的置信区间。

. regress salary roe sale ros, level(95) noheader

（2）计算残差、标准化残差、学生化残差；观察每个指标的描述指标

. predict res, residual . predict res_std, rstandard . predict res_stu, rstudent . summ res res_*

例 1.2 估计工资收入方程，

wage=?0+?1educ+?2exper+?3tenure+u

其中，wage表示工资（千美元），educ表示接受教育的程度（年），exper表示工龄（年），tenure表示在现有岗位的任职时间（年）。（数据文件：wage1）（1）计算OLS估计量、99%的置信区间。

. regress wage educ exper expersq age, level(99) noheader

（2）计算标准化的回归系数

. regress wage educ exper expersq age, beta level(95) noheader

1.3 模型检验

1.3.1 拟合优度

y的变化由两部分引起，一是解释变量X=（x1, x2 ,…, x k）（注意，X不包括常数项），二是随机误差项。那么解释变量与误差项对y的变化所作的贡献如何衡量呢？拟合优度即回

归线对散点的拟合程度。回归线拟合散点的程度越好，则表明解释变量对y的解释能力就越强。

1．可决系数考虑如下两个模型：

y??0??1x1????kxk?uy??0?v

??y?y。将X纳入模模型中不包括X只有常数项时，?0的OLS估计量为y，残差为v??y?y?。由于X的加入，使得模型的误差项缩小了型之后，得到的残差项为u??u??(y?y?y?y?。这即是被v)?(y?)?yX所解释的部分。因此，可以通过被X所解释的部

分在y的离差中所占比例来衡量X对y 的解释能力。

总离差平方和

SST??t?1(yt?y)2??t?1yt2?2y?t?1yt?Ty2?y'y?Ty2, 1.33

TTT回归平方和为

?t?y)2??t?1y?t2?2y?t?1y?t?Ty2 SSR??t?1(y?的均值相同，可得y?y??Ty2，因此回归平方和又可以写为：由回归直线的性质：y与yt?1tTTTT?'y??Ty2 1.34 SSR?y残差平方和为

?t)2??t?1u?t2?u?'u? 1.35 SSE??t?1(yt?yTT则有如下关系存在，

SST = SSR + SSE 1.36

证明：

?'X'Xβ??2β?'X'u?'X'u??u?'u??y?'y??2β??u?'u??y?'y??u?'u? y'y?β??0，因此由于X'u?'X'Xβ??u?'u??y?'y??u?'u? 1.37 y'y?β?'X'Xβ??u?'u??(y?'y??Ty2)?u?'u? y'y?Ty2?β平方和除以它相应的自由度称为均方。回归均方定义为MSR = SSR / k，误差均方定义为MSE = SSE / (T - k - 1)（即随机误差项的方差估计量）。

2．拟合优度R2

?的变差占y的变差的比值是评价一个估计模型优劣的方法之一。计算y多重可决系数定

义如下：

?'y??Ty2SSRyR?? 1.38

SSTy'y-Ty22显然有0 ? R 2 ? 1。R 2越接近1，估计的回归函数对样本点的拟合优度越好，即解释变量对被解释变量的解释作用越强。

3．调整的拟合优度R2

对于给定的样本值yt，总离差平方和是固定不变的。但随着模型中解释变量个数的增加，残差平方和逐渐减小，因此可决系数R 2逐渐增加。

结论1：增加解释变量时，残差平方和的变化。在模型y?Xβ?u中加入新的解释变量z时，

y?Xβ?z??u的残差平方和为：

?'u??u?'u??c?2(u?zX'u?zX) 1.39 u?表示y?Xβ?z??u的残差平方和，u?表示y?Xβ?u的残差平方和，u?zX表示z其中，u对X回归的残差平方和。

??zc?u?。根据分块矩阵的估计公式，证明：设y?Xβ?z??u的回归结果为y?Xβ??(X'X)?1X'(y?Xβ?) ，可得： β111122??(X'X)?1X'(y?zc)?β??(X'X)?1X'zc 1.40 β因此，

??zc?y?Xβ??X(X'X)?1X'zc?zc??y?Xβu??[I?X(X'X)?1X']zc?u??Mzc?u??u?zXc?u新模型的残差平方和为：

1.41

?'u??(u??u?zXc)'(u??u?zXc)?u?'u??2u?'u?zXc?c2u?zX'u?zX 1.42 u根据Frisch-Waugh定理，

?zX'u?zX)?1(u?zX'u?) 1.43 c?(z'Mz)?1(z'My)?(u?zX'u??c(u?zX'u?zX)。因此，即u?'u??u?'u??c2u?zX'u?zX 1.44 u结论2：增加解释变量时，可决系数的变化

由上述结论，

2?'u??u?'u??(u?zX'u?)2/(u?zX'u?zX)?u?'u?(1?ryzu) 1.45

2其中，ryz表示控制变量X时y与z的偏相关系数。上式两边同时除以总离差平方和，可得

2222 1.46 RXz?RX?(1?RX)ryz因此，当模型中加入新的解释变量的时候，模型的残差平方和总是递减的，可决系数总是递增的。为考虑模型中解释变量个数的变化对R 2的影响，定义调整的多重可决系数R2如下，

共7页:

Chapter1 线性回归模型的OLS估计(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档