倾向值匹配与因果推论

2018-11-21 15:13

倾向值匹配与因果推论：

方法论述评

胡安宁

提要：社会科学对于因果关系的关注使得倾向值匹配（propensityscorematching）的方法受到越来越多的重视。本文从以下几个方面对这一方法进

行述评。首先，

本文系统梳理了倾向值匹配方法的历史、发展及其对于社会学调查研究的意义。其次，通过一个具体实例，本文展示了倾向值匹配的具体实施过程。第三，从密尔对因果关系的论述以及统计学的反事实框架（counterfactualframework）出发，本文阐释了倾向值匹配如何通过“控制”混淆变量从而满足非混淆假设（unconfoundedness）来帮助研究者提出因果性结论。第四，本文将倾向值匹配与回归中断设计和工具变量进行了比较。最后，在简要分析倾向值匹配的局限性之后，本文讨论了倾向值匹配的最新发展趋势。

关键词：因果推论倾向值匹配控制思想反事实框架

在过去十几年中，社会科学领域中一个重要的方法论突破在于开

始关注如何通过严格的统计技术进行因果推论（Sobel，

1995，1996，2000；Morgan＆Winship，2007；Winship＆Morgan，1999；Winship＆So-bel，2004）。在各种统计学方法中，倾向值匹配（propensityscorematc-hing）受到越来越多的重视，并在教育学、传染病学以及社会学等领域

得到了广泛的应用（Harding，

2003；Morgan，2001；Morgan＆Harding，2006；Normandetal．，2001；Smith，1997）。

相对于经济学的工具变量方法，倾向值匹配在社会科学研究中还

是一个新兴的统计技术。然而，随着越来越多的经验研究开始关注并且应用倾向值匹配，其独特的优势也逐渐展现出来，因此有着极为广阔的应用前景。本文将从六个方面系统介绍这一方法。在第一部分，笔者将讨论倾向值匹配的历史、发展以及它对社会学调查研究的意义。

作者感谢复旦大学社会学系周怡教授和北京大学社会学系方文教授的建议和帮助，并

感谢匿名审稿人所提出的修改意见。文责自负。

221

社会学研究2012．1

第二部分将通过一个具体实例来展示倾向值匹配的具体实施过程。在第三部分，笔者将从科技哲学和统计学两个方面讨论为什么倾向值匹配的结果可以进行因果性解读。第四部分将把倾向值匹配与其他比较常用的因果推论方法进行简要对比并由此展示倾向值匹配相对于其他方法所特有的优势。在第五部分，笔者将探讨倾向值匹配所存在的一些局限性。最后，简要总结本文内容并探讨倾向值匹配的最新发展趋势。

一、倾向值匹配：历史、发展及其对调查研究的意义

倾向值（propensityscore）这一概念最早出现在1983年罗森鲍姆和鲁宾合写的一篇名为《倾向值对于观察研究中因果效应的中心作用》的论文中（Rosenbaum＆Rubin，

1983）。倾向值指被研究的个体在控制可观测到的混淆变量（confoundingvariables）的情况下受到某种自变量影响的条件概率。在一般的实证研究中，由于存在很多其他变量混淆自变量和因变量之间的关系，研究者很难直接探索二者之间的“净效果”（neteffects）。例如，大学教育的收入回报可能受到年龄、性别以及地区差异这些混淆变量的影响。因此，上大学的人的平均收入与没有上大学的人的平均收入的差异有可能也反映了混淆变量的作用。这些混淆变量的影响通常被称为选择性误差（selectionbias），而通过倾向值匹配的方式来控制和消除选择性误差则是罗森鲍姆和鲁宾论文的题中之义。罗森鲍姆和鲁宾用数理方法证明：通过将这些混淆变量纳入Logistic回归模型来产生一个预测个体受到自变量影响的概率（倾向值），研究者可以通过控制倾向值来遏制选择性误差对研究结论的影响从而保证因果结论的可靠性。

在各种控制倾向值的方法中，匹配（matching）比较简便易行。其基本逻辑是将受到自变量影响的个体与没有受到影响的个体进行配对。而倾向值匹配就是保证匹配起来的个体的倾向值相等或者近似。再次回到大学教育的例子，倾向值匹配就是将没有受过大学教育的人和受过大学教育的人配对并保证他们的倾向值（即上大学的概率）相同或近似，这样我们就得到了上过大学和没上过大学两组个体。因为已有的混淆变量已经在基于倾向值的配对过程中被控制起来了，两组222

研究述评

倾向值匹配与因果推论：方法论述评

个体收入上的差异就只能归因于大学教育的有无，而不是其他混淆变量，由此遏制了选择性误差。罗森鲍姆和鲁宾的思想与计量经济学家赫克曼的想法不谋而合。从样本选择的角度出发，赫克曼认为社会科学家在研究某个自变量效果的时候会不自觉地选择一些样本而忽视另外一些。例如，针对某个研究项目，不同的个体有不同的参与意愿，或者研究者对于研究个体的选择有特定的倾向。这些选择效应（selectioneffect）使得研究者真正

接触的样本是有一定“偏向的”。而基于一个带有选择性的样本，我们

得出的结论也会由于选择效应的“污染”

而出现偏差（Heckman，1979；Heckman＆Smith，1995）。面对这种情况，赫克曼认为在进行研究时需要做两步工作。第一步是建立模型来拟合个体参与到某种研究项目中

的可能性，第二步则是在控制这种参与可能性的前提下来考察我们所关心的自变量对因变量的效果。因此，赫克曼的方法也被称为“两步

估计法”

（two-stepestimator）（Heckman，1978，1979）。我们今天所探讨的倾向值匹配可以说是罗森鲍姆和鲁宾的统计学

传统与赫克曼的计量经济学传统的结合。罗森鲍姆和鲁宾通过逻辑回归方法将混淆变量“总结”成一个倾向值，而这也恰恰是赫克曼两步估

计法中的第一步所要做的，即通过模型估算个体参与某项研究的概率，二者殊途同归。然而，这两个传统的一个不同点在于他们处理倾向值的方式有一定差异。在得到倾向值之后，罗森鲍姆和鲁宾提出了多种控制倾向值的方法：除了匹配之外，也可以将倾向值分层（stratification）或细分（sub-classification），然后在每个层次或类别内探

索因果关系；或者也可以将倾向值作为新的变量进行回归分析。

①而在赫克曼的计量经济学传统中，倾向值主要是作为一个新的变量被纳

入到已有的计量经济模型中，例如选择模型（selectionmodel），工具变

量（instrumentalvariable），或双重差分方法（difference-in-differencesmethod）。需要指出的是，这种差异只是在处理倾向值的具体方式上的

不同，

本质上这两个传统的基本逻辑是一致的，即在考察自变量效果之前通过模型估计并控制个体受到自变量影响的概率。在社会学领域，早在1997年，宾夕法尼亚大学社会学系的史密斯就已经使用倾向值匹配方法研究医院改革对患者死亡率的影响

①

将倾向值纳入回归模型的方法被称为

“回归调整”（regressionadjustment）。223

社会学研究2012．1

（Smith，1997）。然而，史密斯这篇文章的主要目的是展示倾向值匹配方法，因此是作为方法论的论文发表在《社会学方法论》（SociologicalMethodology）期刊上的。两年以后，哈佛大学的温希普和摩根在《美国社会学年鉴》

（AnnualReviewofSociology）上系统梳理了如何通过统计方法进行因果推论，其中也谈到了倾向值匹配（Winship＆Morgan，1999）。

总体上来说，在2000年之前，社会学领域内对倾向值匹配的主要关注点还是在于熟悉倾向值匹配的基本逻辑，而将其作为一种普遍适用的统计方法去研究实际问题还要到21世纪才渐渐兴起。2003年，

当时还在哈佛大学学习的哈丁在《美国社会学杂志》

（AmericanJournalofSociology）上发表了一篇论文研究社区贫困程度对社区少年辍学及

早孕的影响，其中倾向值匹配开始像多元回归那样作为一种统计技术来验证和发展已有理论（Harding，2003）。也正是在这一阶段，倾向值匹配的软件模块开始被开发出来并嵌入到一般的统计软件中。例如，贝克尔和栎野在2002年发布了可以嵌入Stata的用于倾向值匹配的模块

“pscore”（Becker＆Ichino，2002）。鲁汶及夏内西也在一年后发布了他们所编写的用于倾向值匹配的模块“psmatch2”

（Leuven＆Sianesi，2003）。这些统计模块的开发使倾向值匹配开始在社会学领域广泛应用。根据哈佛大学社会学系安卫华的梳理，截至2009年，在

《美国社会学评论》（AmericanSociologicalReview）和《美国社会学杂志》上发表的论文中，

利用倾向值匹配技术的超过了200篇，内容涉及教育社会学、互联网使用、失业问题、健康问题等诸多方面（An，2010）。可以说，在当前的社会学研究中，倾向值匹配已逐渐发展成为一个普适的统计研

究方法，并得到越来越多的重视。倾向值匹配在社会学领域的兴起并非偶然，这是和社会学对大规模调查资料的使用分不开的。与统计学领域的实验设计不同，调查资料无法对研究个体进行人为控制。从这个意义上说，基于调查资料的研究也被称为“观察性研究”（observationalstudies）（Rosenbaum，2002）。在实验性研究中，选择性误差可以通过随机化（randomization）的方法来克服，但在观察性研究中，类似的随机化是不可能的。因此，社会学家们基于调查资料去探究任何两个变量关系的时候都不可避免地会受到其他混淆变量的影响。例如，布兰德和谢宇在2010年的一篇论文中列举了在研究大学教育和收入关系时所存在的选择性误差224

研究述评

倾向值匹配与因果推论：方法论述评

（Brand＆Xie，2010）。一方面，很多人之所以能够上好大学就在于其个人能力较其他人高，而这些人在未来的工作中也很可能表现得更好

从而收入更高。如果我们的研究样本大部分都是高智商群体，那么就会“显得”大学教育带来高收入，但实际上，大学教育对收入的影响是

被个人能力这个变量给

“膨胀起来”（inflated）的。另一方面，很多人上大学概率低是由于他们家庭贫困难以负担教育费用。对这些人，只要

他们完成了大学教育，即使毕业后的收入只是达到平均水平，也已经比之前有很大飞跃。在这种情况下如果我们的样本偏重于家境贫寒的人，我们就会发现大学教育再一次“显得”对收入提升有很大促进作用，而此时的混淆变量就是家庭经济背景。对于这种选择性误差，我们可以通过赫克曼误差修正模型（selectioncorrectionmodel）来进行控制，但这个模型实施起来较为复杂。相比而言，倾向值匹配为我们提供了一种更为直观简便的处理选择性误差的方法。在下一节，我将通过一个实例来展示如何进行倾向值匹配。

二、倾向值匹配的实施过程：一个实例

在这一部分，笔者将利用倾向值匹配的方法分析中国综合社会调查2005年城市问卷（CGSS2005）的相关变量，并由此来估计中国城市居民大学教育的收入回报。其中因变量是收入水平（2004年全年总收入，包括工资、各种奖金、补贴、分红、股息、保险、退休金、经营性纯收入、银行利息、馈赠等所有收入），这里将其取自然对数。我们关心的自变量是被访者教育水平（1=大学本科教育及以上；0=大学本科教育以下）。我们需要控制的混淆变量包括：性别（1=女性；0=男性）、年龄、政治身份（1=党员；0=非党员）、父亲教育水平（1=高中教育及以上；0=高中教育以下）、户口类型（1=城市户口；0=非城市户口）、被访者的单位性质及父亲的单位性质（1=党政机关；2=国有企业；3=国有事业；4=集体企事业；5=其他）。此处选取这些变量是因为已有研究表明这些变量会混淆教育水平和收入之间的关系（Li＆Walder，2001；Lin＆Bian，1991；Shu，2004；Walder＆Hu，2009；Xie＆Wu，2008）。

一般我们会把这些混淆变量作为控制变量纳入到回归模型中，但

225

共5页:

倾向值匹配与因果推论.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档