社会学研究2012.1
这样做有一些潜在风险。首先,如果将这些混淆变量作为自变量放进回归模型,我们就潜在假定了这些混淆变量对收入的效果与大学教育对收入的效果之间存在一种线性关系。然而这种线性假定缺乏理论和实践依据(Morgan,2001)。也就是说,我们不能简单认为性别对收入的影响与教育对收入的影响是累加的(additive)。其次,大学教育的回归系数代表的是一种“平均”效果。这个系数所回答的问题是:在人口中任意选取一个人,如果他接受的是大学教育,他的收入会是什么水平。然而,在探索因果关系时我们所关心的问题则是:(1)一个任意选取的大学生如果一开始没上大学的话会是什么收入水平;(2)一个任意选取的非大学生如果上大学的话会是什么收入水平。(1)和(2)是两个不同的问题,
而回归模型则没有区分它们,只是取了它们的平均水平,这样做无疑会带来误差。最后,由于混淆变量与我们关心的自变量之间存在相关性,简单地将混淆变量纳入多元回归模型有可能产生共线性问题。倾向值匹配有效地控制了这些混淆变量,同时还通过一种
半非参数性(seminon-
parametric)方法避免了上面提到的三个风险。①具体而言,运用倾向值匹配方法有以下几步。
步骤一:预测倾向值。这一步是利用已知的混淆变量使用Logistic或Probit模型来预测个体进入大学读书的概率。基于上面变量,得到
的结果见表1。
②通过表1我们可以发现,这些混淆变量加在一起对是否进入大学
学习有比较强的解释力,这一点可以从虚拟R2(PseudoR2)的数值(超过17%)看出来。对社会学研究而言,这个虚拟R2值并不低,由此可
以看出该模型中的混淆变量能够比较显著地预测个体能否进入大学
读书。
③步骤二:基于倾向值进行匹配。有了上面的Probit模型,我们就能够预测每个研究个体的倾向值。需要指出的是,虽然每个个体都有倾向值得分,但有些人的倾向值太高或太低,因此无法找到相匹配的个
①之所以说是半参数,是因为在估算倾向值时,我们使用了参数模型(Logistic或者Probit),
但后来估计因果效果时则没有使用参数模型,即简单比较组间差异。②其中父亲的教育水平因为共线性问题而被自动删除。此外,由于CGSS2005没有测量个体智力水平的变量,个人智力水平也未能考虑进来。③
这里我们并不关心某个特定自变量的效果。实际上,由于潜在的共线性问题,这里的回归系数很可能不准确。
226
研究述评
倾向值匹配与因果推论:方法论述评
表1
预测倾向值的Probit回归结果
回归系数标准误Z值城市户口
-1.35.35-3.83***单位性质:党政机关1.89.286.75***单位性质:国有企业.11.22.48单位性质:国有事业1.40.226.26***单位性质:集体企事业.32.311.02父亲单位性质:党政机关-.03.28-.11父亲单位性质:国有事业.28.191.47父亲单位性质:集体企事业-.26.31-.84女性.07.15.44党员-1.38.18-7.66***年龄-.22.03
-8.19***年龄平方006.81***截距
6.13
.787.90***
Loglikelihood=-678.365PseudoR2=0.1746
注:*p<0.1,**p<0.05,***p<0.01(两端检验)。
体。这些倾向值取值非常“极端”的人因为没有与之匹配的个体存在
往往无法为我们提供有用的信息,所以在随后的分析中也就没有被考虑进去,这就使得最后我们在分析高等教育的收入回报时所采用的样本量可能要比一开始的样本量小。在这个最后使用的“匹配样本”中,我们能够确保受过高等教育的个体和没有受过高等教育的个体匹配起来。“匹配样本”中倾向值的取值范围被称为“共同区间”(commonsupport)。本研究中共同区间内的样本量为3164(其中上过大学的为229人)。在这个共同区间内,我们有不同的匹配方法将受过大学教育的229人和没受过大学教育的2935人配对。对某个上过大学的个体A,比较常用的方法包括邻近匹配(找与A的倾向值得分最接近的未上大学的个体B匹配),半径匹配(以个体A的倾向值为中心,以某个数值为半径,在这个范围内的所有没上过大学的个体与A匹配)以及核
心匹配。
①①
核心匹配比较复杂,其基本原理是将没有受过大学教育的人的收入值(因变量取值)加
权平均起来,
而权重则是核心方程(kernelfunction)的取值(详见Guo&Fraser,2010)。227
社会学研究2012.1
步骤三:基于匹配样本进行因果系数估计。在这个匹配好的样本中,我们只需比较那些上过大学和没上大学的个体的平均收入差值就可以估计出大学教育本身对收入的影响。由于配对样本的倾向值近似,配对个体在混淆变量上的取值极为近似,这样也就控制了混淆变量的影响。换句话说,我们得到的组间(上大学和没上大学)差异就只能归因于大学教育的有无。我们最后的结果如表2所示。
表2
倾向值匹配的结果
受过大学
没受过大学因果关教育的人
教育的人系系数标准误T值邻近匹配
2332971.730.05712.87***半径匹配(半径0.01)2302971.770.05513.93***核心匹配
232
2971
.764
.053
14.36***
注:(1)由于我们这里主要是用没有受过大学教育的人去匹配受过大学教育的人,我们
的关注点是那些受过高等教育的人(即接受了某种“处理”的人),因此这里的因果关系系数即
“受到处理的个体的平均处理效果”(averagetreatmenteffectofthetreated),简写为ATT;(2)*p<0.1,**p<0.05,***p<0.01(两端检验)。
通过表2可以发现,不同匹配方法下我们得到的因果关系系数不
完全相等,这是因为受过大学教育的个体在不同的匹配方式下可能和不同的未受大学教育的个体进行了匹配。然而这些不同的匹配方法得出的结论基本一致(系数在0.73到0.77之间)。这些系数就是大学教育的收入回报。其可以解释为与没有受过大学教育的人相比,大学教育带来log(年收入)的变化。
需要说明的是,在社会学定量研究中,在完成了匹配以后,通常会比较每个混淆变量在大学组与非大学组之间是否还存在显著差异。理想情况是大学组与非大学组的混淆变量均值没有显著差异,这时我们
可以说这样的配对样本是“平衡”(balanced)的。限于篇幅,这里未将均值比较结果展示出来,但我们上面的分析已通过了平衡性检验。此
外,倾向值匹配通常配合敏感性分析(sensitivityanalysis)来检验我们在预测倾向值时是否忽略了某些关键的混淆变量。在敏感性分析阶段,我们假设存在一个或多个我们没有能够控制的混淆变量,如果这些假设的未控制变量对收入的影响的大范围变动都无法改变我们的结论,
228
研究述评
倾向值匹配与因果推论:方法论述评
我们的结论就站得住脚。上面的研究就通过了相关的检验。
①三、倾向值匹配与因果推论
倾向值匹配后的结果不仅仅指出了变量之间有联系,还进一步确
立了二者之间的因果性。这种方法论上的优势可以从科技哲学和统计学两个方面予以阐释。(一)科技哲学角度的阐释
倾向值匹配对因果性结论的支持首先依据的是科技哲学领域内对因果关系的理论探讨。当我们谈及因果性的时候,我们往往会回归到密尔对求同法(methodofagreement)及求异法(methodofdifferences)
的讨论(彭玉生,
2011;Mill,2002/1984;Sobel,1995,1996)。求同法是指在一个群体中所有人都在两个变量上取值相同(例如所有人都上了
大学,同时所有人都是高智商)而在其他变量上取值不同(他们不全是女性,不全是农村居民,等等),那么这两个变量之间(大学教育和智力水平)就具有因果关系。求异法是指两个个体在因变量上的取值不同,而在某个自变量之外的其他自变量上的取值相同,则那个取值不同的自变量和因变量之间存在因果关系。正如彭玉生所论述的那样,密尔的这两种探索因果关系的方法对后来的统计实验设计有着巨大影响(彭玉生,2011)。无论是求同法还是求异法,二者都要求对关键自变量之外的其他自变量进行考察。只有其他自变量满足特定的条件时(求同法要求其他自变量的取值都不一样,而求异法要求其他自变量的取值都一样)我们才能够确定某种因果关系。这实际上是引入了“控制”的思想,即只有“控制”了其他变量,我们才能够真正确定我们
①
在敏感性分析中,比较常用的方法是罗森鲍姆界限(RosenbaumBounds)。在该方法中,
我们用伽玛系数来指代被忽视的混淆变量对人们是否进入大学读书产生的影响。使用罗森鲍姆界限进行敏感性分析时,我们主要观察在什么样的伽玛系数水平上我们的结论变得不显著。如果在伽玛系数接近1的时候我们的结论就已经不显著了,那么我们已有的结论就经不起推敲。但是如果在伽玛系数取值很大(通常接近2)的时候我们的已有结论才变得不显著,我们就能够认为我们的结论是站得住脚的(Linetal.,1997;Rosen-baum&Rubin,1983)。本实例中我们的结论直到伽玛系数在3.5时才在0.05的水平上不显著。
229
社会学研究2012.1
关心的两个变量之间存在因果关系。
从“控制”的角度出发,倾向值匹配十分巧妙地完成了对多个混淆变量的控制。我们可以从一个混淆变量的情况谈起:假定只有个人智力水平混淆了大学教育和收入之间的关系。一个比较直观的控制个人智力的办法是将个人智力这一变量细分(sub-classification)成不同层次以保证每一个层次中的人的个人智力水平近似。然后我们在各个层次内部观察大学教育和收入的关系,
最后将这些关系综合起来(Rubin,1997)。如果存在两个混淆变量(例如家庭经济背景好坏和个人智力高低),
我们可以将这两个变量交互分成2x2个小组,组内个体在这两个变量上的取值都是一样的(家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且智力高,以及家庭背景不好且智力低),在每组内部观察大学教育和收入的关系然后综合起来。至此,通过细分的方法,我们完成了“控制”混淆变量的工作。但随着混淆变量越来越多,这种细分法就变得十分不方便了。例如,如果我们要控制5个混淆变
量,每个变量有5个取值水平,我们就需要划分55=3125个小组。很快我们的数据样本量就不够保证每一组都有个体。倾向值匹配的办法
巧妙地解决了这个多混淆变量下的“多维”
(multipledimensional)问题:它不再关注每个需要控制的混淆变量的具体取值,而是转而关注将这些变量纳入Logistic回归方程后预测出来的倾向值取值。只要保证倾向值匹配,这些所有需要控制的混淆变量就都考虑到了(Rosenbaum&Rubin,1983)。这样做实际上是将对多个混淆变量的控制转为对倾向值的控制从而达到
“降维”(dimensionreduction)的目的。换句话说,无论有多少需要控制的混淆变量,我们都能够通过倾向值匹配的方法将它们控制,从而帮助我们得出因果性结论。因此,从“控制”的角度出发,倾向值匹配法很好地解决了多混淆变量时的控制问题,从而支持
了因果推论。
①(二)统计学角度的阐释
倾向值匹配的因果推论功能也能通过统计学视角进行阐释。这里
①
倾向值匹配的另一个优势在于,如果我们有很多需要控制的混淆变量,它们之间有可能互
相抵消或者强化。如果使用细分的方法去考察单个变量,这种抵消或强化效果就无法体现出来。相反,倾向值匹配预测出的倾向值通过回归的方式考察了这种互相抵消或强化作用。
230