回归中异常值的残差诊断探讨

2020-06-03 13:54

回归中异常值的残差诊断探讨

北方民族大学信息与计算科学学院马耀兰魏波

摘要：本文阐述了用残差进行诊断，主要包括：异常值的普通(非标准化)残差诊断、异常值的剔除残差诊断和异常值的学生化剔除残差诊断。对异常值的处理问题还进行了进一步的探讨，提出了处理异常值的一般性的理论和方法。关键字：异常值；残差诊断作者简介：

姓名：马耀兰，女，1981－，宁夏同心人，本科北方民族大学信息与计算科学学院教师。魏波，男，1979－，宁夏银川人，本科，北方民族大学信息与计算科学学院教师 1 引言

回归分析是统计学中一个非常重要的分支,它在自然科学、管理科学和社会等领域应用十分广泛。在回归分析中的一个重要的假设是，使用的模型对所有的数据是适当的。在实际应用中通常会有个别案例观测值似乎与模型不相符，但模型拟合于大多数数据。其中不适合的个别案例就是我们所说的异常值。

对于异常值的来源通常有主观和客观两个原因。主观原因是由于人们在收集和记录数据的时候出现错误所造成的。这种异常值诊断出后处理很容易。客观原因是有两类机制所造成的，即重尾分布和混合分布，弄清这类异常值产生的原因很重要，因为这将直接影响后面数据的分析。例如：我们可以想象一个地质模型，其中异常值对应着石油储藏或其他有用特征的案例。它与大多数案例分析不一样，这样的异常值就成了分析目的。因此，对于异常值点不应该机械被删除或自动降低权重，因为他们不一定是坏的观测。相反，如果是准确的，就可能是数据中包含信息最多的值。 2异常值检验 2.1残差诊断

异常值的残差诊断是从直接反映拟合效果好坏的残差入手。常用的残差有：普通残差、预测残差、学生化残差、递归残差和不相关残差。在这里主要以一元线性回归模型为例，用普通残差、预测残差、学生化残差来进行异常值的检验。一元线性回归模型为：

y??0??1X??对于n个观测点为(xi,yi),^^^?~N(0,?2) （2.1.1）

i?1,2,...,n 模型的最小二乘估计为：

yi??0??1xi,i?1,2,...,n （2.1.2）

2.1.1异常值的普通(非标准化)残差诊断

普通残差就是最小二乘残差，就是通过最小二乘回归后得到的残差，记为?。第i个样本观测值的普通残差为：?i?yi?yi^^^

在古典线性回归模型的假设下，

?i~N(0,?2),i?1,2,...,n 构造统计量：

?iS^^~t(n?2) （2.1.1.1）

S?其中，

^在1??的置信水平下，查t分布表t??n?2为?的最小二估计量。

j?1n?^2j2(n?2)，

凡满足?i?t?2(n?2)S的观测值就可以认为是异常值。在大样本的情况下，t分布与正态分布十分接近，因此，也可以按照正态分布的3?原则判断异常值。由普通残差的定义有：

var(?i)??2(1?hii)?(1?xi2Lxx)?2其中，Lxx?^i?1,2,...,n。

?x,2jj?1n22hj?(xixj)Lxx，显然有：?hij?(?xi2x2j)Lxx?xiLxx?hii

jj^从上面可以看出普通残差?i存在异方差问题，并且异方差大小取决于自变量xi的数值，条件?i~N(0,?),^2i?1,2,...,n很难满足。因此，用普通残差诊断异常值是不合适的，

它只能作为一个参考。 2.1.2异常值的删除残差诊断

在n个样本观测值的情况下，每次有n?1个样本观测值进行回归分析，并用所得到的估计结果来预测省略的哪个样本值，这样就可以得到删除残差：

??yi?y （2.1.2.1）

其中y为n个样本观测值中除去第i样本观测值后得到的yi的拟合值。在古典线形回归模型假设下，构造统计量：其中S?[**i^*i^*i?i*S*~t(n?2) （2.1.2.2）

?(?j?1n*2j)](n?2)。在1??的置信水平下，查t分布表t?2(n?2)，凡是满足

?i*?t?2(n?2)S*的观测值就可以认为是异常值。在大样本情况下，也可以按照正态分布

的3?原则判断异常值。与普通残差相比，尽管删除残差也存在异方差问题：

Var(?i*)?Var[(?i*)(1?hii)]?[Var(?i*)](1?hii)??2(1?hii)，但在诊断异常值时普通

残差要包括异常值在内的所有样本观测值来拟合获得，所以很难发现异常值。而删除残差用其他样本观测值来拟合获得，因而更容易发现异常值。 2.1.3异常值的学生化删除残差诊断

学生化删除残差是删除残差除以其估计标准差，记为ri*，设去掉第i个观测值的回归模型中的?222的无偏估计为S(i)，则第i个观测值的学生化删除残差为：

ri*??i*S(i),Var(ri*)?1 （2.1.3.1）

此时，ri*~t(n?3)，在1??置信水平下查t分布表得到t?2(n?3)，凡是满足

ri*?t?2(n?3)的观测值就可以认为是异常值。当然在大样本情况下也可以用正态分布的3?原则判断异常值。与删除残差相比，学生化删除残差不存在异方差问题。因此通过学生

化删除残差来诊断异常值更科学,更准确。

算例智力测试数据：下表是教育学家测试的21个儿童的记录，其中X是儿童的年龄（与月为单位），Y表示某种智力指标，通过这些数据要建立智力随年龄变化的关系。先考虑其线性模型。表2.1

组数 1 2 3 4 5 6 7 8

x 15 26 10 9 15 20 18 11 y 95 71 83 91 102 87 93 100 组数 11 12 13 14 15 16 17 18 x 7 9 10 11 11 10 12 42 y 113 96 83 84 102 100 105 57 用SPSS统计软件求的其线性回归方程为：

y=109.874 -1.127x

用SPSS统计软件得到的残差图：

9 10 8 20 104 94

19 20 21 17 11 10 121 86 100

ScatterplotDependent Variable: yRegression Deleted (Press) Residual3210-1-260.0080.00100.00120.00ScatterplotDependent Variable: y403020100-10-2060.0080.00100.00120.00Regression Standardized Residual 图2.1 图2.2 yy ScatterplotScatterplotDependent Variable: y3Dependent Variable: yRegression Studentized Deleted (Press) ...43210-1-260.0080.00100.00120.00Regression Studentized Residual210-1-260.0080.00100.00120.00 图2.3 图2.4

yy 上面的图分别是因变量与标准化残差（图2.1）、剔除残差（图2.2）、学生化残差（图2.3）、学生化剔除残差（图2.4）的散点图。

从上面4幅散点图可以看到，有一点残差远离0点，推断它可能是异常值。同时用SPSS统计软件可以求出它的各种残差、COOK距离和高杆值见下表：

组数 RES_1 DRE_1 ZRE_1 SRE_1 SDR_1 COO_1 LEV_1 1 2.03099 2.133 0.18 0.19 0.18 0 0 2 -9.57213 -11.3 -0.9 -0.9 -0.9 0.08 0.11 3 -15.604 -16.6 -1.4 -1.5 -1.5 0.07 0.02 4 -8.73094 -9.39 -0.8 -0.8 -0.8 0.03 0.02 5 9.03099 9.486 0.82 0.84 0.83 0.02 0 6 -0.33406 -0.36 -0 -0 -0 0 0.03 7 3.41196 3.622 0.31 0.32 0.31 0 0.01 8 2.52304 2.675 0.23 0.24 0.23 0 0.01 9 3.14207 3.415 0.29 0.3 0.29 0 0.03 10 6.66594 7.188 0.6 0.63 0.62 0.02 0.03 11 11.01508 12.11 1 1.05 1.05 0.05 0.04 12 -3.73094 -4.01 -0.3 -0.4 -0.3 0 0.02 13 -15.604 -16.6 -1.4 -1.5 -1.5 0.07 0.02 14 -13.477 -14.3 -1.2 -1.3 -1.3 0.05 0.01 15 4.52304 4.795 0.41 0.42 0.41 0.01 0.01 16 1.39605 1.49 0.13 0.13 0.13 0 0.02 17 8.65003 9.126 0.78 0.81 0.8 0.02 0 18 -5.54031 -15.9 -0.5 -0.9 -0.8 0.68 0.6 19 30.28497 31.98 2.75 2.82 3.61 0.22 0.01 20 -11.477 -12.2 -1 -1.1 -1.1 0.03 0.01 21 1.39605 1.49 0.13 0.13 0.13 0 0.02

表2.2 其中：非标准化残差（RES_1）、剔除残差（DRE_1）、标准化残差（ZRE_1）、学生化残差（SRE_1）、学生化剔除残差（SDR_1）、COOK距离（COO_1）、高杠杆值（LEV_1）。

取??0.05对他们进行残差诊断，求得S=11.023，t0.025(19)?2.093,因此有

S?t0.025(19)?22.476,与普通残差相比只有第19组数据的残差为30.28497比

S?t0.025(19)?22.476大，所以从异常值的普通残差(非标准化残差)诊断认为第6组数据为

异常值。

*还可以算出S?12.249，因此有S?t0.025(19)?25.637,与预测残差(剔除残差)相比

*只有第19组数据的残差为31.98，比S*?t0.025(19)?25.637大, 从异常值的剔除残差诊断认为第19组数据为异常值。已知学生化剔除残差最大值是第19组数据的残差为3.61，大于

t0.025(18)?2.101,而其他残差值小于t0.025(18)?2.101，故从学生化剔除残差也可以认为第

19组数据为异常值。

从整个残差表中残差的值，可以看出除第19组数据外，其他数据用残差诊断都可以认为不是异常值，即只有第19组数据是异常值。第18组数据的残差相对较小，但其COOK距离和高杠杆值均远远大于其他值（甚至是19组数据的值），所以第18组数据是一个影响很大的数据。因此，可以利用COOK距离和高杠杆值判断第18组据为高杠杆点。一般异常值往往有极大的残差，而高杠杆点往往仅仅是对应于极端大的hii点，不一定有极大的残差。 3 结论

3.1 异常值的处理

诊断出异常值后，就要进一步判断引起异常值的原因，通常引起异常值的原因有下面几条：

异常值的原因数据登记错误，存在抄写或录入的错误数据测量错误数据随机误差缺少重要自变量缺少观察数据存在异方差模型选取错误，线性模型不适合异常值的消除方法重新核实数据重新测量数据删除或重新观测异常值数据增加必要的自变量增加观测数据，适当扩大自变量的取值范围采用加权线性回归改用非线性回归模型对引起异常值的不同原因，需要采用不同的处理方法。如果一个异常值的数据是准确的，但是找不到对它合理的解释，与剔除这个观测值相比，一个更稳健的方法就是抑制它的影响。参考文献

[1] 《应用回归分析》何晓群刘文卿编著中国人民大学出版社 2001 [2] 《线性回归模型引论》王松桂史建红等编科学出版社 2005 [3] 《现代回归模型诊断》吴喜之田茂再编著中国统计出版社 2003 [4] 《统计软件SPSS系列》苏金明傅荣华等编著电子工业出版社 2002

回归中异常值的残差诊断探讨.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档