Chapter1 线性回归模型的OLS估计(2)

2020-04-14 01:17

佳线性无偏估计量(BLUE)。

4. 方差来源

?的方差对于统计推断以及经济解释都是至关重要的。方差越大,说明估计量越不精确,β因此参数的置信区间就越大,假设检验也就越不准确。假设关注变量x2,设DGP为

y?X1β10?x2?20?u,模型设定为y?X1β1?x2?2?u。根据FML定理,

??[x'Mx]?1[x'My]?212122?[x2'M1x2]?1[x2'M1(X1β1?x2β2?u)]?[x2'M1x2][x2'M1x2β2?x2'M1u]??2?[x2'M1x2]?1x2'M1u?1

其方差为:

?)?E?(x'Mx)?1x'Muu'Mx(x'Mx)?1?Var(?21121222?212???????????????(x2'M1x2)20?1

其中,(x2'M1x2)表示x2对X1回归的残差平方和。因此,方差也可以表述为:

?02?022?1?Var(?2)??0(x2'M1x2)?? 1.29 SSE2(1?R22)SST2其中,SSE2、R22表示x2对X1回归的残差平方和与可决系数,SST2??t?1(x2t?x2)表示?的方差来源于三部份:回归标准差σ02、解释变量之间的相关性、x2的离差平方和。因此,?2Tx2的波动。

回归标准差σ02体现了模型中噪音的成分,噪音越多(σ02越大),那么解释变量的影响就越难以判断,估计量的就越不准确。σ02是一个总体概念,与样本无关。但它是未知的,在后面的章节推导出其无偏估计量。给定被解释变量y,要想降低σ2,那就需要将更多的成分从随机扰动项中提取出来,方法只有一个:加入新的解释变量。但加入新的变量并不总是有效的,后面的章节还会详细地加以解释。

?)就越Ri2体现了xi与其他解释变量的线性相关程度。相关程度越高,Ri2就越高,var(?i?)→∝大。当Ri2→1时,var(?。这时,我们称之为多重共线性(multicollinearity)。

i当然,如果部分解释变量之间存在多重共线性,不会影响其他的参数估计。比如,在下面的模型中:

yt = ?0 + ?1 x1t + ?2 x2t+ ?3 x3t + ut

?)和var(??)会比较大。?)如果x2t与x3t高度相关,那么var(?但x2t与x3t的相关性对var(?23i22?)=σ/SST1,与x2t、没有影响。事实上,如果x1t、x2t都与x3t不相关,即R1→0,那么var(?ix3t之间的相关性没有任何关系。因此,如果模型关注的是x1t,那么就没有必要在乎x2t、x3t之间的多重共线性问题。

?的方差越小。提高xi的离差平方给定其他条件不变的情况下,xi的离差平方和越大,β和的方法是增加样本容量。当样本容量不断增加时,离差平方和可以无限大,可以有力地降

?的方差。Arthur Goldberger针对人们面临多重共线性问题的困扰提出了小样本问题低β(micronumerosity),参见Goldberger(1991)。

1.2.4 区间估计

?的分布形式,我们已经知道了β如果进行区间估计的话,还需要估计? ?。根据前文所述,

?= Mu。残差平方和为 u?'u??(Mu)'Mu?u'M'Mu?u'Mu 1.30 u则残差的方差估计量

?'u?/(T?K?1)?u'Mu/(T?K?1) 1.31 s2?u因s2是一个标量,所以有

?'u?)?E[tr(u'Mu)]?E[tr(Muu')]E(u?tr[E(Muu')]?tr[ME(uu')]?tr[M?2I]??2tr[M]??2tr[I?X?X'X???X']??2?tr(I)?tr[X?X'X???X']???2?N?tr[?X'X???X'X]???2(N?K?1)?'u?/(N?K?1)]??2???2?u?'u?/(N?K?1)E[u其中tr(?) 表示矩阵的迹。tr(I ) = T,tr(X ( X ' X)-1 X ') = k+1。因为对于矩阵A B C有tr(ABC) = tr(BCA)= tr(CAB),所以tr(X (X 'X )-1 X ' ) = tr( (X 'X)-1 X 'X ) = tr(I ) = k+1。由此可见s 2是? ?的无偏估计量。

?的方差估计量,就可以构建区间估计了。方法与第一章相同,此处不予赘述。得到了β 1.2.5

残差的分布

1.32

接下来我们进一步考察残差的特征。上面我们利用残差估计随机误差项的方差,后面很多统计检验都要利用残差。

??Mu, 由u?)?0E(u?)?E(uu??')?E(Muu'M')??2MVar(u

可以得到几个基本结论。(1)每个残差都是所有误差项的线性组合。因此,虽然u同方差、

?是异方差、存在序列相关的。?i)??2(1?hii)。因此,残差的方差无序列相关,但u(2)Var(u小于随机误差项的方差。杠杆越高的观测值,残差的方差越小。与之相关联的另外两种残差为标准化残差与学生化残差。标准化残差为ei??,学生化残差为ui/(s1?hii)?i/(s(i)1?hii)。其中,s(i)表示删除第i个观测值后误差项的标准差。 ri?u1.2.6 标准化的回归系数

参数估计量是有量纲的,因此不能直接比较不同解释变量的相对重要性。如果要比较不同变量的相对重要性,可以首先将所有的解释变量进行标准化,这样便将其转换为没有量纲的概念了。

yt*?yt?yx?xku?u*?kt, xkt, ut*?t

s(yt)s(xt)s(ut)然后利用标准化后的解释变量进行回归,

*****yt*??0??1*x1t????kxkt?ut

*标准化的回归系数?0,?1*,?,?k*消除了量纲,可以直接用于比较不同变量重要性。

*思考题:标准化的回归系数?0,?1*,?,?k*与最初模型的回归系数(?0,?0, …, ?k) 存在什么关

系?

例 1.1 考察CEO年薪方程

Salary=?0+?1roe+?2sale+?3ros+u

其中,salary表示CEO年薪(千美元),roe为前三年的平均资产收益率(%),sale表示公司销售额(百万美元),ros表示股票收益率(%)。(数据文件:ceosal) (1)计算OLS估计量、95%的置信区间。

. regress salary roe sale ros, level(95) noheader

(2)计算残差、标准化残差、学生化残差;观察每个指标的描述指标

. predict res, residual . predict res_std, rstandard . predict res_stu, rstudent . summ res res_*

例 1.2 估计工资收入方程,

wage=?0+?1educ+?2exper+?3tenure+u

其中,wage表示工资(千美元),educ表示接受教育的程度(年),exper表示工龄(年),tenure表示在现有岗位的任职时间(年)。(数据文件:wage1) (1)计算OLS估计量、99%的置信区间。

. regress wage educ exper expersq age, level(99) noheader

(2)计算标准化的回归系数

. regress wage educ exper expersq age, beta level(95) noheader

1.3 模型检验

1.3.1 拟合优度

y的变化由两部分引起,一是解释变量X=(x1, x2 ,…, x k)(注意,X不包括常数项),二是随机误差项。那么解释变量与误差项对y的变化所作的贡献如何衡量呢?拟合优度即回

归线对散点的拟合程度。回归线拟合散点的程度越好,则表明解释变量对y的解释能力就越强。

1. 可决系数 考虑如下两个模型:

y??0??1x1????kxk?uy??0?v

??y?y。将X纳入模模型中不包括X只有常数项时,?0的OLS估计量为y,残差为v??y?y?。由于X的加入,使得模型的误差项缩小了型之后,得到的残差项为u??u??(y?y?y?y?。这即是被v)?(y?)?yX所解释的部分。因此,可以通过被X所解释的部

分在y的离差中所占比例来衡量X对y 的解释能力。

总离差平方和

SST??t?1(yt?y)2??t?1yt2?2y?t?1yt?Ty2?y'y?Ty2, 1.33

TTT回归平方和为

?t?y)2??t?1y?t2?2y?t?1y?t?Ty2 SSR??t?1(y?的均值相同,可得y?y??Ty2,因此回归平方和又可以写为: 由回归直线的性质:y与yt?1tTTTT?'y??Ty2 1.34 SSR?y残差平方和为

?t)2??t?1u?t2?u?'u? 1.35 SSE??t?1(yt?yTT则有如下关系存在,

SST = SSR + SSE 1.36

证明:

?'X'Xβ??2β?'X'u?'X'u??u?'u??y?'y??2β??u?'u??y?'y??u?'u? y'y?β??0,因此 由于X'u?'X'Xβ??u?'u??y?'y??u?'u? 1.37 y'y?β?'X'Xβ??u?'u??(y?'y??Ty2)?u?'u? y'y?Ty2?β平方和除以它相应的自由度称为均方。回归均方定义为MSR = SSR / k,误差均方定义为MSE = SSE / (T - k - 1)(即随机误差项的方差估计量)。

2. 拟合优度R2

?的变差占y的变差的比值是评价一个估计模型优劣的方法之一。计算y多重可决系数定

义如下:

?'y??Ty2SSRyR?? 1.38

SSTy'y-Ty22显然有0 ? R 2 ? 1。R 2越接近1,估计的回归函数对样本点的拟合优度越好,即解释变量对被解释变量的解释作用越强。

3. 调整的拟合优度R2

对于给定的样本值yt,总离差平方和是固定不变的。但随着模型中解释变量个数的增加,残差平方和逐渐减小,因此可决系数R 2逐渐增加。

结论1:增加解释变量时,残差平方和的变化。在模型y?Xβ?u中加入新的解释变量z时,

y?Xβ?z??u的残差平方和为:

?'u??u?'u??c?2(u?zX'u?zX) 1.39 u?表示y?Xβ?z??u的残差平方和,u?表示y?Xβ?u的残差平方和,u?zX表示z其中,u对X回归的残差平方和。

??zc?u?。根据分块矩阵的估计公式,证明:设y?Xβ?z??u的回归结果为y?Xβ??(X'X)?1X'(y?Xβ?) ,可得: β111122??(X'X)?1X'(y?zc)?β??(X'X)?1X'zc 1.40 β因此,

??zc?y?Xβ??X(X'X)?1X'zc?zc??y?Xβu??[I?X(X'X)?1X']zc?u??Mzc?u??u?zXc?u新模型的残差平方和为:

1.41

?'u??(u??u?zXc)'(u??u?zXc)?u?'u??2u?'u?zXc?c2u?zX'u?zX 1.42 u根据Frisch-Waugh定理,

?zX'u?zX)?1(u?zX'u?) 1.43 c?(z'Mz)?1(z'My)?(u?zX'u??c(u?zX'u?zX)。因此, 即u?'u??u?'u??c2u?zX'u?zX 1.44 u结论2:增加解释变量时,可决系数的变化

由上述结论,

2?'u??u?'u??(u?zX'u?)2/(u?zX'u?zX)?u?'u?(1?ryzu) 1.45

2其中,ryz表示控制变量X时y与z的偏相关系数。上式两边同时除以总离差平方和,可得

2222 1.46 RXz?RX?(1?RX)ryz因此,当模型中加入新的解释变量的时候,模型的残差平方和总是递减的,可决系数总是递增的。为考虑模型中解释变量个数的变化对R 2的影响,定义调整的多重可决系数R2如下,


Chapter1 线性回归模型的OLS估计(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2018-2024年中国液晶显示器行业深度调研报告(目录) - 图文

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: