试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念
多重共线性是指自变量之间存在线性相关关。倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。 2、特征 3、产生原因
产生多重相关性的原因主要包括四方面。一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式
(1)经验式的诊断方法
通过观察,得到一些多重相关性严重存在的迹象。①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。③对重要自变量的回归系数进行t检验,其结果不显著。特别是当F检验能在高精度下通过,测定系数R2的值也很大,但自变量的t检验却全都不显著,这时多重相关性的可能将会很大。④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。⑤重要自变量的回归系数置信区别明显过大。⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。 (2)统计检验方法
共线性的诊断方法是基于对自变量的观测数据构成的矩阵X’X进行分析,使用各种反映自变量间相关性的指标。共线性诊断常用的统计量有方差膨胀因子VIF或容限TOL、条件指数和方差比例等。
方差膨胀因子VIF是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。对于第i个回归系数,它的方差膨胀因子定义为:VIF=1/1-R2=1/TOLi 其中R2i是自变量Xi对模型中其余自变量线性回归模型的R平方。VIFi的倒数TOLi也称为容限。一般建议,若VIF>10,模型中有很强的共线问题。 4、影响
多重共线性会产生以下问题: 增大了OLS估计量的方差 方差膨胀因子即:
1 21?r12VIF表明,OLS估计量的方差随着多重共线性的出现而“膨胀”起来。当X1,X2高度相关,即r12趋于1时,方差—膨胀因子VIF趋于无穷大,即随着多重共线性程度的增强,OLS估计量的方差也将成倍增长,直至变到无穷大。
VIF?难以区分每个解释变量的单独影响 回归模型缺乏稳定性 t检验的可靠性降低
4、处理方式
设定回归模型的时候,为了全面反映各方面因素的影响,总是在理论和实践认识的基础上,尽量选取被解释变量的所有影响因素。这样在同时考虑多个影响因素的情况下,很可能产生多重共线性问题。因此,为了解决这一矛盾,剔除变量时应该全面、慎重考虑,根据解释变量的特点采用较为合适的方式。 剔除引起共线性的变量
根据理论和实际经验设定回归模型时,容易考虑过多的解释变量,其中,有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。所以在估计模型之前,找出引起多重共线性的变量,将它剔除出去,是最有效的克服多重共线性问题的方法。
变换模型的形式
对原模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式:一是变换模型的函数形式;二是变换模型的变量形式;三是改变变量的统计指标。
综合使用时序数据与横截面数据
如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部 分参数,再利用另一类数据估计模型的其余参数。 逐步回归分析法
建立回归模型的时候,一般是将解释变量全部引入模型,然后再根据统计检验和定性分析从中逐个剔除次要的或产生多重共线性的变量,选择变量是一个“由多到少”的过程。而逐步回归选取变量时,是一个“由少到多”的过程,即从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入—剔除—引入,直到模型之外所有变量均不显著时为止。许多统计分析软件都有逐步回归程序,但根据计算机软件自动挑选的模型往往统计检验合理,经济意义并不理想。因此,实际应用中一般是依据逐步回归的原理,结合主观分析来筛选变量。 增加样本容量
由于多重共线性是一个样本特性,如果理论上解释变量之间不存在多重共线性,则可以通过收集更多的观测值增加样本容量,来避免或减弱多重共线性。如将时间序列和截面数据合并成平行数据。但当解释变量的总体存在多重共线性时,理论上说增加再多的样本容量也不能降低解释变量之间的线性关系。 不作任何处理
当模型出现下列情况时,对多重共线性可不做处理。
(1)当所有参数估计量皆显著或者t值皆大于2时,对多重共线性可不做处理。 (2)当被解释变量对所有解释变量回归的决定系数R2值大于任何一个解释变量对其余解释变量回归的决定系数Ri2值时,对多重共线性可不做处理。
(3)如果多重共线性并不严重影响参数估计值,以至我们感到不需要改进它时,多重共线性可不做处理。
(4)如果样本回归方程仅用于预测的目的,那么只要存在于给定样本中的共线性现象在预测期保持不变,多重共线性就不会影响预测结果,因此多重共线性可不做处理。