3.二阶段最小二乘法估计的基本原理和主要步骤(重点思想和推到步骤)
(1)估计的基本步骤: 第一阶段:
将每个解释变量x1,?,xk分别对所有L个工具变量{z1,z2,?zL}作OLS回归,得到拟合值为:
?1?Px1,x?2?Px2,?,x?k?Pxk x其中,P?Z(Z'Z)?1Z'为Z的投影矩阵。写成矩阵形式,可以定义
??(x?1x?2?x?k)?P(x1x2?xk)?PX?Z[(Z'Z)?1Z'X] X第二阶段:
?是{zz,?z}的线性组合(参见第一阶段回归)?恰好包含K个工具变量,由于X,故X1,2L?为工具变量对原模型y?X???进行工具变量法估计: 使用X??(X?'X)?1X?'y ?IV?视为把y对X?进行OLS回归而得到的,故名为“二阶段最小因此,可以看出,可以将?IV???二乘”。需要注意的是,第二阶段回归得到的残差为e?y?X,而原方程残差确是
22SLS?,因此在进行2SLS最好不要自己去进行两次手工回归,而是直接使用软件e?y?X?2SLS(如STATA)进行回归分析。
??(X?'X)?1X?'y,可得到2SLS的最终表达式: ??Z[(Z'Z)?1Z'X]代入方程?将XIV'?1'''?1'?1''?1'???(XPX)XPy?[XZ(ZZ)ZX]XZ(ZZ)Zy 2SLS
(2)二阶段最小二乘相关检验:
在使用工具变量法估计的时候,必须对工具变量的有效性进行检验,否则,导致估计结果不一致或估计量的方差过大。
A.检验工具变量与解释变量的相关性
前面在使用工具变量进行估计的时候,工具变脸必须与内生解释变量完全不相关,否则就无法使用工具变量法估计,如果仅仅微弱的相关,成为“若工具变量”,其后果类似于样本容量较小,导致估计量性质变得很差,统计推断失效。
''判断弱工具变量的方法之一为,在第一阶段回归中,x2?x1?1?z2?2?e,检验原假设
“H0:?2?0”,一个经验规则,如果次检验的F统计量大于10,则可拒绝“存在弱工具变量”的原假设,不必担心弱工具变量问题。在多个内生解释变量的情况下,将有多个第一阶段回归,固有多个F统计量,此时运用“最小特征值统计量”。STATA提供了最小特征值统计量的临界值。
B.检验工具变量的外生性
举例说明,假定我们有单一的被怀疑的内生变量,
y1??0??1y2??2z1??3z2?u1,
其中z1和z2是外生的。我们有另外两个外生变量,z3和z4,它们不出现在方程中。
我们在介绍简单的工具变量估计量时,我们强调IV必须满足两个必需条件:它必须与误差不相关,与内生解释变量相关。我们在相当复杂的模型中已看到,如何判断在诱导型回归中是否能用一个t或F检验来检验第二个必需条件。我们声称第一个必需条件不能被检验,因为它涉及到IV与未观测到的误差之间的相关。然而,如果我们有不只一个的工具变量,我们就能有效地检验它们中的一部分是否与结构误差不相关。
作为一个例子,在有另外两个工具变量z3和z4的条件下,重新考虑方程。我们知道仅用z3作为y2的IV,就能估计。给定IV估计值,我们就能计算残差
????y???z???z。?1在?1?y?1??因为z4在估计中根本没用到,我们可以验证z4与uu0122132样本中是否相关。如果它们相关,z4不是y2的有效IV。当然,这并没有告诉我们z3与u1是否相关;实际上,因为它是个有用的检验,我们必须假定z3与u1不相关。然而,如果z3和z4是用相同的逻辑来选择的——例如母亲的教育和父亲的教育——发现z4与u1相关将使
人对用z3作为IV产生怀疑。
因为z3和z4的角色可以交换,若是假定z4与u1不相关,我们也可以检验z3与u1是否相关。我们该用哪个检验呢?结果是,我们对检验的选择是无关紧要的。我们必须假定至少有一个IV是外生的。然后,我们可以对2SLS中所用的过度识别约束(overidentifying restrictions)进行检验。根据我们的用意,过度识别约束的数目简单地就是额外的工具变量的数目。假定我们只有一个内生解释变量。如果我们只有y2的单一个IV,而没有过度识别约束,也就没什么可检验的。如果我们有y2的两个IV,如同前面的例子中那样,则我们有一个过度识别约束。如果我们有三个IV,则有两个过度识别约束,等等。
检验过度识别约束是相当简单的。我们必须获得2SLS残差,然后做一个辅助回归。
检验(任意多个)过度识别约束
?1。 (i)用2SLS估计结构方程,获得2SLS残差u?1对所有外生变量回归,获得R2,即R12。 (ii)将u212(iii)在所有IV都与u1不相关的虚拟假设下,nR~?q,其中q是模型之外的工具变量的数目减去内生解释变量的总数目。如果nR1超过了?q分布中的(例如)5%临界值,我们拒绝H0:所有工具变量都是外生的,并推断出至少部分的IV不是外生的。
C.究竟该用OLS还是工具变量法:对解释变量内生性的检验
当解释变量是外生的时,2SLS估计量不如OLS有效;正如我们已看到的,2SLS估计值会有非常大的标准误。因此,检验一个解释变量的内生性是有用的,它说明了2SLS甚至是否必要。获取这样的检验相当简单。
举例说明,假定我们有单一的被怀疑的内生变量,
2a2 y1??0??1y2??2z1??3z2?u1, (1) 其中z1和z2是外生的。我们有另外两个外生变量,z3和z4,它们不出现在方程(1)中。如果y2与u1不相关,我们该用OLS估计。对此我们如何检验呢?Hausman(1978)建议直接比较OLS和2SLS估计值,判断其差异是否在统计上显著。毕竟,如果所有变量外生,OLS和2SLS都是一致性的。如果2SLS与OLS的差异显著,我们断定y2必定是内生的(zj保持外生性)。计算OLS和2SLS,看估计值是否实际上有差异,这是个好主意。为了判断差异是否在统计上显著,用回归来检验更容易。这是以估计y2的诱导型为基础的,此时诱导型为
y2??0??1z1??2z2??3z3??4z4?v2. (2) 现在,因为各个zj与u1不相关,所以y2与u1不相关当且仅当v2与u1不相关;这是我们希望检验的。写成u1??1v2?e1,其中e1与v2不相关,且有零均值。那么,u1与v2不相关当且仅当?1?0。检验这一点最容易的方法是将v2作为添加的回归元包括在(1)中,做t检验。这么做唯一的问题是:v2不能被观测到,因为它是(2)中的误差项。可是因为我们?2。因此,我们用OLS估计 能用OLS估计y2的诱导型,我们可以获取诱导型残差v?2?error y1??0??1y2??2z1??3z2??1v (3)
并用t统计量检验H0:?1?0。如果我们以一个小的显著水平拒绝H0,我们因v2与u1相关推断出y2是内生的,进而运用2SLS估计比OLS估计更有效。
附:广义距估计(GMM)
在扰动项存在异方差或自相关情况下,广义距估计(GMM)比二阶段最小二乘(2SLS)更有效率,即GMM之于2SLS,正如GLS之于OLS。
4.软件选择和实例演示
(1)软件以及操作步骤:
运用STATA 进行二阶段最小二乘估计 操作命令与步骤:
主命令: ivregress 2sls depvar [varlist1] (varlist2=instlist),r
其中,“depvar”为被解释变量,“varlist1”为外生解释变量,“varlist2”为内生解释变量,而“instlist”为工具变量,“r”表示使用异方差稳健标准差。
检验命令:
A.相关性检验: estat firststage,all forcenonrobust
该命令将显示与弱工具变量有关的第一个阶段回归统计量及临界值。“all”表示显示每个内生解释变量的统计量而非仅仅是所有内生变量综合的统计量。 “forcenonrobust”表示即使在进行工具变量法时使用了稳健标准差,也仍然允许计算“estate firststage”中的统计量。
B.外生性检验(过度识别检验):estat overid
C.解释变量内生性检验:豪斯曼检验 reg y x1 x2
estimates store ols (存储OLS估计的结果) ivregress 2sls y x1 (x2=z1 z2) (假设“x2”为内生变量) estimates store iv (存储2sls的结果)
hausman iv ols,constant sigmamore (根据存储的结果进行豪斯曼检验) (2):实例演示: