第15章 工具变量与两阶段最小二乘(2)

2019-01-03 16:05

接下来,我们用父亲的教育(fatheduc)作为educ的工具变量。我们必须认为fatheduc与u不相关。第二个必需条件是educ与 fatheduc相关。做一个educ 对fatheduc的简单回归(样本中只有职业女性),我们可以非常容易地验证这一点:

?uc?10.24 ? .269fatheduced (0.28) (.029) (15.16)

n?428, R2?.173.fatheduc的t统计量为9.28,说明educ与 fatheduc之间存在统计上显著的正相关。(实际上,fatheduc

解释了样本中educ的变异中约17%的部分。)用fatheduc作为educ的IV,得:

?ge)??.441log(wa ? .059educ (15.17) (.446) (.035) n?428, R2?.093.教育回报的IV估计值为5.9%,大约是OLS估计值的12。这表明OLS估计值过高,且与遗漏的能力变量的偏误相一致。但我们应该记住,这些都是仅从一个样本中得出的估计值:我们根本不知道0.109是否高于真正的教育回报,或者0.059更接近真正的教育回报。其次,IV估计量的标准误是OLS标准误的21倍。2(这是我们预期到的,原因已在前面表明)。运用OLS得出?1的95%置信区间比运用IV要狭窄得多;事实上,IV的置信区间确实包含了OLS估计值。因此,尽管实践中(15.15)与(15.17)之间的差异很大,我们不能说该差异在统计上显著。第15.5节中我们将说明如何对此进行检验。

在前面的例子中,运用IV估计出的教育回报小于运用OLS的估计结果,这符合我们的预期。以下的例子将表明这个结果不是必然的。

例15.2 估计对男性进行教育的回报

现在我们再用WAGE2. RAW来对男性估计教育的回报。我们用sibs(兄弟姊妹的数目)作为educ的工具变量。它们是负相关的,对此我们可以从以下简单回归中来证实:

?uc?14.14 ? .228sibsed (0.11) (.030) n?935, R2?.057.该方程意味着,每多一个兄弟姊妹,相关联的是一年内所受的教育平均比原来减少约0.23。如果我们假定

sibs与(15.14)中的误差项不相关,那么IV估计量就具有一致性。用sibs 作为educ的工具变量估计方程(15.14),得:

?ge)?5.13 ? .122educlog(wa (0.36) (.026) n?935.(R计算出为负数,因而我们没有予以报告。后面将从IV估计的角度对R进行讨论。)相比之下,?1的

22

6

OLS估计值是.059,标准误是.006。与前面的例子不同,现在IV估计值比OLS估计值大得多。尽管我们不知道该差异是否在统计上显著,但它不会与OLS中遗漏的能力变量所造成的偏误相混淆(mesh with)。有可能sibs也与能力相关:较多的兄弟姊妹意味着平均起来受父母的照料较少,这可能导致较低的能力。另一个解释是,由于educ中的测量误差,OLS估计量有朝零偏误。该解释不能完全令人信服,因为educ未必满足经典的含误差变量模型,这一点我们已在第9.3节中讨论过。

在前面的例子中,内生解释变量(educ)与工具变量(fatheduc,sibs)均有数量含义。然而,这两类都可以是二值变量。Angrist和Krueger(1991)在他们最简单的分析中,利用美国的男性人口调查数据,提出了educ的一个巧妙的二值工具变量。如果该男性是在第一季度出生的,令frstqrt等于1,否则为0。(15.14)中的误差项——特别是能力——似乎应该与出生季度不相关。但是,frstqrt还要与educ相关。事实表明,在基于出生季度的总体中,教育年数确实有系统性差异。Angrist和Krueger认为是缘于在各州实行的义务就学法,这很有说服力。简单地说,年初出生的学生往往入学较晚。因此,他们在达到义务教育年龄时(大部分州定为16岁),所受的教育略少于入学较早的学生。Angrist和Krueger证实了,对于已完成高中学业的学生来说,受教育年数与出生季度并无关系。

2因为教育年数在各出生季度之间的变化仅仅是微乎其微的——这意味着(15.13)中的Rx,z非常小——

Angrist和Krueger需要很大的样本容量来得到一个合理而准确的IV估计值。利用1920至1929年之间出生的247,199位男性的数据,得出教育回报的OLS估计值为.0801(标准误为.0004),IV估计值为.0715(.0219);见于Angrist和Krueger的论文中的表III。注意到OLS估计值的t统计量那么大(约为200),然而IV估计值的t统计量仅为3.26。因而IV估计值在统计上不为0,但其置信区间比基于OLS估计值的置信区间宽得多。

Angrist和Krueger有一个有趣的发现:IV估计值与OLS估计值相差并不多。实际上,利用下一个十年中出生的男性的数据,得出IV估计值稍微高于OLS估计值。对此可以这样解释:说明在用OLS估计工资方程时不存在遗漏能力的偏误。可是,Angrist和Krueger的论文在计量经济学界受到了非难。如同Bound,Jaeger和Baker(1995)讨论的那样,它不能明显地判断出生季节与影响工资的诸因素不相关,纵然这些因素没有被人观测到。我们在下一小节中将解释,即使z与u之间有少量的相关,也会导致IV估计量存在严重的问题。

对于政策分析,内生解释变量往往是二值变量。例如,Angrist(1990)研究了,参加越南战争的老兵,其终身收入因参加越战而受到的影响。一个简单模型为:

log(earns)??0??1veteran?u, (15.18) 其中veteran是二值变量。疑问在于,用OLS估计该方程时,可能存在一个自我选择(self-selection)的问题,这一点我们在第7章中提到过:也许人们因为能从军队中得到最多的收入而选择参军,或者参军的决策与其他对收入有影响的特征相关。这些问题将导致veteran与u相关。

Angrist指出,越南战争的征兵抽签提供了一个自然试验(natural experiment)(亦参见第13章),从而产生了veteran的一个工具变量。年轻人被分给的征兵抽签号决定了他们是否会被征召去服役于越南战争。因为所分给的号码(毕竟)是随机分配的,征兵抽签号与误差项u不相关似乎是可信的。而得到号码足够小(指号码小于某个数——译者)的人必须服役于越南战争,使得成为老兵的概率与抽签号相关。如果以上两点都是正确的,征兵抽签号是veteran的一个好的IV候选者。

问题15.1

如果某些被分给小的征兵抽签号的人,获得了更多的学校教育以减少了 被征兵的概率,抽签号仍是(15.18)中veteran的好的工具变量吗?

7

还有可能遇到一个二值的内生解释变量与一个二值的工具变量的情况。作为一个例子,参见习题15.1。

低劣的工具变量条件下IV的性质

我们已经看到,尽管当z与u不相关,而z与x存在着正的或负的相关时,IV是一致性的,但当z与x只是弱相关时IV估计值可能有大的标准误。z与x之间的弱相关可能产生甚至是更加严重的后果:即使z与u只是适度相关,IV估计量也会有大的渐近偏误。

当z与u可能相关时,通过对IV估计量的概率极限的分析,就可以看到这一点。利用总体相关和标准差,可以推出:

?? plim?1?1?Corr(z,u)?u . (15.19)

Corr(z,x)?x其中?u和?x分别代表总体中u和x的标准差。该方程中引起人们兴趣的是包含相关项的部分。它表明,即使Corr(z,x)很小,如果Corr(z,u)也很小,IV估计量的非一致性会非常大。因此,即使我们只考虑一致性,如果z与u之间的相关小于x与u之间的相关,使用IV不一定比OLS更好。由于

~Corr(x,u)?Cov(x,u)/(?x?u),连同方程(5.3)一起,我们可以将OLS估计量的plim——称之为?1—

—写为

plim?1?~?1?Corr(x,u)?u . (15.20)

?x比较两式,说明当Corr(z,u)/Corr(z,x)?Corr(x,u)时,IV就渐近偏误而言比OLS更可取。

在前面提到的Angrist和Krueger(1991)的例子中,x是学校教育的年数,z是一个指示出生季度的二值变量,z与x之间的相关非常小。Bound,Jaeger和Baker(1995)讨论了出生季度与u可能有些相关的原因。从方程(15.19)中,我们看到这将会导致IV估计量有相当大的偏误。

当z与x完全不相关时,无论z是否与u不相关,事情尤其糟糕。接下来的例子说明了为什么我们应当时常检查内生解释变量是否与备选的IV相关。

例15.3 估计吸烟对出生体重的影响

在第6章中,我们估计了吸烟对婴儿出生体重的影响。没有其他的解释变量,模型为:

log(bwght)??0??1packs?u, (15.21) 其中packs是母亲每天吸烟的包数。我们会担心packs与其它健康因素或者获得良好的产前护理的可能性相关,以致packs与u可能相关。packs的一个可能的工具变量是所居住州的香烟价格cigprice。我们将假定cigprice与u不相关(即使州政府对健康护理的支持可能与香烟税相关)。

如果香烟是典型的消费品,基本的经济理论表明packs与cigprice负相关,所以cigprice可用作packs的IV。为验证这一点,我们利用BWGHT. RAW中的数据,做packs对cigprice的回归:

?ck?.067?.0003 pacigprice (.103) (.0008) n?1,388, R2?.0000, R2??.0006.

8

这说明怀孕期间吸烟与香烟价格之间没有关系。考虑到吸烟有使人上瘾的特性,该结论可能不会太令人惊讶。

因为packs与cigprice不相关,我们不应该在(15.21)中用cigprice作为packs的IV,但如果我们用了会怎么样?IV的结果将为:

?ght)?4.45?2.99packs log(bw (0.91) (8.70) n?1,388.(所报告的R为负数)。packs的系数极大,而且有一个意想不到的符号。标准误也非常大,因此packs不是显著的。可是估计值是没有意义的,因为cigprice不满足我们总可以检验的IV的一个必需条件,即

(15.5)中的假定。

IV估计后计算R

大多数回归软件包运用标准公式R2?1?SSRSST计算IV估计之后的R,其中SSR是IV残差的

222SST是y的总平方和。平方和,与OLS中的情况不同,由于IV的SSR实际上可能大于SST。IV估计中R22的可能为负数,尽管报告IV估计的R不会有什么害处,但也不很有用。当x与u相关时,我们不能将y的方差分解成?12Var(x)?Var(u),因此对R没有合理的解释。另外,正如我们将在第15.3节中讨论的,这些R不能以通常的方法用于计算联合约束的F检验值。

如果我们的目标是要得出最大的R,我们将总是用OLS。IV法是打算当x与u相关时,为x在其余条件不变情况下对y的影响提供更好的估计值;拟合优度不是考虑的因素。如果我们不能对?1进行一致性估计,从OLS中得出高的R也不会让人感到欣慰。

222215.2 多元回归模型的IV估计

简单回归模型的IV估计量容易延伸至多元回归的情形。我们从仅有一个解释变量与误差相关的情形开

始。实际上,考虑两个解释变量条件下的标准线性模型:

y1??0??1y2??2z1?u1. (15.22) 我们称之为结构方程(structural equation),以强调我们的兴趣在于?j ,这仅仅意味着此方程应该测量一个因果关系。在此我们用一个新的符号来区分内生变量与外生变量(exogenous variables)。因变量y1显然是内生的,它与u1相关。变量y2和z1是解释变量,u1是误差。通常,我们假定u1的期望值为0:E(u1)?0。

9

我们用z1表示该变量在(15.22)中是外生的(z1与u1不相关)。我们用y2表示该变量被怀疑与u1相关。我们没有详细地说明为什么y2与u1相关,但现在最好认为u1包含一个与y2相关的遗漏变量。方程(15.22)中的符号源自于联立方程模型(我们将在第16章中讨论),但我们把它更广泛地用于多元回归模型中,目的是容易区分外生变量和内生变量。

(15.22)的一个例子是: log(wage)??0??1educ??2exper?u1, (15.23) 其中y1?log(wage),y2?educ,z1?exper。换句话说,我们假定exper在(15.23)中是外生的,但我们允许educ——由于通常的原因——与u1相关。

我们知道,如果用OLS估计(15.22),所有的估计量将是有偏而非一致性的。这样,我们采用前一节中建议的策略,寻找y2的工具变量。因为假定了z1与u1不相关,我们能否假定y2与z1相关而将z1用作y2的工具呢?答案是不能。既然z1自身作为解释变量出现在(15.22)中,它就不能用作y2的工具变量。我们需要另外一个外生变量——称之为z2——它不出现在(15.22)中。因此,关键的假定是z1、z2与u1不相关;我们还假定u1具有零均值,当方程包含截距时,这并不失普遍性。

E(u1)?0, Cov(z1,u1)?0, 和Cov(z2,u1)?0. (15.24) 给定零均值的假定,后两个假定等价于E(z1u1)?E(z2u1)?0,因而按照矩法的意思是求解(15.24)的对

?、??和??: 应样本方程来获得?120?(yi?1nni1????y???z)?0??01i22i1

?zi?1ni1????y???z)?0 (15.25) (yi1??01i22i1????y???z)?0.(yi1??01i22i1?zi?1i2?、??和??的三线性方程组,给定y、y、z和z的数据,它很易于求解。这些这是关于三个未知量?2112120估计量叫做工具变量估计量。如果我们认为y2是外生的,并选择z2?y2,方程(15.25)恰恰是OLS估计量的一阶条件;参见方程(3.13)。

我们仍需要工具变量z2与y2相关,可是这两个变量必须相关的含义因(15.22)中存在z1而变得复杂。我们现在需要从偏相关的角度来表述这一假定。表述该条件最容易的方法是将内生解释变量写成关于外生变量和误差项的一个线性函数:

10


第15章 工具变量与两阶段最小二乘(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:商业计划书制作与演示期末考试答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: