第一组二阶段最小二乘讲义

2019-03-03 13:48

2012-2013学年高级计量经济学分组名单

第一组：潘琳、王超、倪远栋、叶寅、李畅、吴超、卿剑、李珊、刘春梅、王巍、马哲光、俞力群、田纪华

题目：二阶段最小二乘法（2SLS）内容：

适用的情况（或条件）估计原理步骤实例

二阶段最小二乘计量方法讲义整理

1.引例（引出问题和方法）

例一：有关工资收入和教育水平、个人能力之间的关系问题

考虑成年劳动者的工资方程中存在未观测到的能力的问题。一个简单的模型为：

log(wage)??0??1educ??2abil?e, （1）其中e是误差项。在某些假定下，如何用诸如IQ的代理变量代替能力，从而通过以下回归可得到一致性估计量

log(wage) 对 educ, IQ 进行回归

然而，假定不能得到适当的代理变量（或它不具备足以获取一致性估计量所需的性质）。这样一来，我们将abil放入误差项中，留下来的就是简单的回归模型：

log(wage)??0??1educ?u, （2）

其中u包含了abil。当然，可以用OLS估计此方程，但是，如果educ与abil （即

educ与随机误差项u）相关，即educ为内生解释变量，则用OLS估计得到的结果将是?1的有偏、非一致性估计量。

我们把简单回归模型写成：

y??0??1x?u, （3）

其中我们认为x与u相关：

Cov(x,u)?0.

此时，假如我们能找到一个变量z，满足两个条件：一是与变量x存在高度相关关系，即Cov(z,x)?0.；二是与随机扰动项u不存在相关关系，即Cov(z,u)?0.；从遗漏变量的角度看，这意味着z应当对y无偏效应，也不应当与其它影响y的因素相关，此时变量z就称作为变量x的工具变量（IV），则我们就利用工具变量z可以根据上述方程（3）来进行估计，得到参数的无偏的一致估计，如劳动经济学家已在工资方程中使用的家庭背景变量作为教育的IV。例如，母亲的教育（motheduc）与孩子的教育是正相关的，这一点通过收集劳动者数据样本并做educ对motheduc的简单回归便可以看出来，因此，motheduc满足相关性条件，但是，母亲的教育也可能与孩子的能力相关（通过母亲的能力和可能通过孩子幼年所受的教养的质量）。

另外，educ的另一个IV选择是成长过程中兄弟姊妹的数目（sibs）。一般地说，较多的兄弟姊妹与较低的平均教育水平相联系，而与个人能力的高低不存在直接关系，这样，它就可以充当educ的工具变量，进而进行工具变量发进行估计，得到参数的无偏、一致估计。

我们利用方程（3）：z与y之间的协方差为

Cov(z,y)??1Cov(z,x)?Cov(z,u).

现在，在Cov(z,u)?0与Cov(z,x)?0的假定下，我们可以解出?1为：

?1?Cov(z,y)Cov(z,x).

给定一个随机样本，我们用对应样本量来估计总体的量。在分子和分母中约去样本容量后，我们得到?1的工具变量（IV）估计量（instrumental variables (IV) estimator）：

n?? ?1?(zi?1ni?z)(yi?y).

?z)(xi?x)?(zi?1i

例二：逃课对考试成绩的因果影响问题

考虑逃课对期末考试平均成绩的因果影响的问题。在一个简单的回归框架中，我们有

score??0??1skippe?du, （4）其中，score是期末考试平均成绩，skipped是该学期逃课的总数目。此时，在用OLS估计方程时，我们担心skipped可能与u中其它因素相关：比如，成绩较好（无法观测的能力变量）的学生可能逃课较少等情况，因而score对skipped的简单回归可能不会给我们一个对逃课的因果影响的好的估计，因此，我们需要找到一个好的工具变量进行估计。

什么可能是skipped的好的IV？我们所需要的是对score无直接效应，且与学生能力不相关的IV，同时，该IV必须与skipped相关。一个选择是利用住宿区与教室之间的距离distance，这也许会增加逃课的可能性（由于恶劣的天气、睡过头等等）。因而，skipped可

distance是否与u不相关？在简单回归模型（4）中，假如u中的一些因素不与distance相关，那么，distance也许是skipped的一个好的IV，进而能良好估计模型（4）。如果学生能力有一个好的代理，例如以往学期的累积GPA，IV法可能根本就不需要。

能与distance正相关；这一点可通过skipped对distance的回归并作一个t检验得以验证。

问题总结：

例子存在的共同问题：

1. 在简单回归模型中存在遗漏重要变量问题，运用OLS估计导致其得到估计结果不一致。 2. 遗漏变量没有良好的代理变量情况下，会导致解释变量与扰动项的存在相关关系，即出现内生解释变量情况，导致估计结果有偏。

解决的可行方法：

1.在没有良好代理变量情况下，通过寻找外生变量作为工具变量进行估计，解决了内生解释变量导致的有偏估计情况，得参数的到无偏、一致估计。

2．二阶段最小二乘简单介绍（工具变量相关概念、使用的情况、解决的问题、主要的估计思想等）

工具变量法：

（1）由以上引例可以看出在解决内生解释变量问题时，通过需找一个满足一定条件的外生变量，即工具变量来获取无偏的一致估计，故为工具变量法。

（2）何为工具变量（IV）：在简单回归方程y??0??1x?u,中，一个有效的工具变量应满足以下两个条件：

A．相关性：工具变量与内生解释变量相关，即Cov(z,x)?0. B．外生性：工具变量与扰动项不相关，即Cov(z,u)?0.

现在我们来证明可得到的工具变量能够用于进行方程一致性参数估计。特别地，为了根据总体协方差写出?1，我们对方程两边求与z的协方差，得到：

Cov(z,y)??1Cov(z,x)?Cov(z,u).

现在，在Cov(z,u)?0与Cov(z,x)?0的假定下，我们可以解出?1为： ?1?Cov(z,y)Cov(z,x).

[注意到如果z与x不相关，即Cov(z,x)?0，该简单代数式不成立。] 上式表明?1是z、

y之间的总体协方差除以z、x之间的总体协方差的商，这说明了?1被识别。给定一个随机

样本，我们用对应样本量来估计总体的量。在分子和分母中约去样本容量后，我们得到?1的工具变量（IV）估计量（instrumental variables (IV) estimator）：

n?? ?1?(zi?1ni?z)(yi?y).

?z)(xi?x)?(zi?1i??y???x，给定x、y和z的样本数据，很容易获得IV估计量。?0的IV估计量就为：?01除了其中的斜率估计量??1现在为IV估计量，它看起来就像OLS中的截距估计量

传统的工具变量法一般都通过“二阶段最小二乘法”（2SLS或TSLS）来实现，顾名思义，就是通过做两个回归来完成估计过程。

?； ?z，得到拟合值x 第一阶段：用内生解释变量对工具变量回归，即x???OLS?。 ?x 第二阶段：用被解释变量对第一阶段回归的拟合值进行回归，即y???OLS

二阶段最小二乘法：

在前一节中，我们假定有单一的内生解释变量（y2），和y2的一个工具变量。可往往我们有不只一个的外生变量，它们被排斥在结构模型之外，且可能与y2相关，这意味着它们是y2的有效的IV。在本节中，我们讨论如何运用复工具变量。

工具变量法作为矩估计方法，必须满足矩法估计的阶条件。一般的说，当我们在回归模型中有不只一个的内生解释变量时，在若干复杂的情况下仍可能不能识别。但是，我们可

以容易地表述识别的一个必要条件，叫做阶条件（order condition）。

根据是否满足阶条件分为三种情况：

A．不可识别：工具变量的个数小于内生解释变量的个数； B．恰好识别：工具变量的个数等于内生解释变量的个数； C．过度识别：工具变量的个数大于内生解释变量的个数。

以上介绍的工具变量法仅适用于“恰好识别的情形”，但在实际中存在多个内生解释变量和工具变量的情况，就会出现“过度识别”的情况，解决方法之一就是扔掉“多余”的工具变量，但这种方法不是有效的，因为丢掉的工具变量包含着有用的信息，导致估计的结果不充分，此时运用二阶段最小二乘为有效估计。

显然，多个工具变量的线性组合仍然是工具变量，仍满足工具变量的两条件，如果能生成工具变量的线性组合数等于内生解释变量个数，则又回到了恰好识别的情形。在球型扰动项的假定下，由二阶段最小二乘法所提供的工具变量线性组合是所有线性组合中最渐进有效的。所以能良好解决过度识别问题，使工具变量法最终得到有效地一致估计。

共2页:

第一组二阶段最小二乘讲义.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

第一组 二阶段最小二乘讲义

第一组二阶段最小二乘讲义