回归中异常值的残差诊断探讨

2020-06-03 13:54

回归中异常值的残差诊断探讨

北方民族大学信息与计算科学学院 马耀兰 魏波

摘要:本文阐述了用残差进行诊断,主要包括:异常值的普通(非标准化)残差诊断、异常值的剔除残差诊断和异常值的学生化剔除残差诊断。对异常值的处理问题还进行了进一步的探讨,提出了处理异常值的一般性的理论和方法。 关键字:异常值;残差诊断 作者简介:

姓名:马耀兰,女,1981-,宁夏同心人,本科 北方民族大学信息与计算科学学院教师。魏波,男,1979-,宁夏银川人,本科,北方民族大学信息与计算科学学院教师 1 引言

回归分析是统计学中一个非常重要的分支,它在自然科学、管理科学和社会等领域应用十分广泛。在回归分析中的一个重要的假设是,使用的模型对所有的数据是适当的。在实际应用中通常会有个别案例观测值似乎与模型不相符,但模型拟合于大多数数据。其中不适合的个别案例就是我们所说的异常值。

对于异常值的来源通常有主观和客观两个原因。主观原因是由于人们在收集和记录数据的时候出现错误所造成的。这种异常值诊断出后处理很容易。客观原因是有两类机制所造成的,即重尾分布和混合分布,弄清这类异常值产生的原因很重要,因为这将直接影响后面数据的分析。例如:我们可以想象一个地质模型,其中异常值对应着石油储藏或其他有用特征的案例。它与大多数案例分析不一样,这样的异常值就成了分析目的。因此,对于异常值点不应该机械被删除或自动降低权重,因为他们不一定是坏的观测。相反,如果是准确的,就可能是数据中包含信息最多的值。 2异常值检验 2.1残差诊断

异常值的残差诊断是从直接反映拟合效果好坏的残差入手。常用的残差有:普通残差、预测残差、学生化残差、递归残差和不相关残差。在这里主要以一元线性回归模型为例,用普通残差、预测残差、学生化残差来进行异常值的检验。一元线性回归模型为:

y??0??1X??对于n个观测点为(xi,yi),^^^?~N(0,?2) (2.1.1)

i?1,2,...,n 模型的最小二乘估计为:

yi??0??1xi,i?1,2,...,n (2.1.2)

2.1.1异常值的普通(非标准化)残差诊断

普通残差就是最小二乘残差,就是通过最小二乘回归后得到的残差,记为?。第i个样本观测值的普通残差为:?i?yi?yi^^^

在古典线性回归模型的假设下,

?i~N(0,?2),i?1,2,...,n 构造统计量:

?iS^^~t(n?2) (2.1.1.1)

S?其中,

^在1??的置信水平下,查t分布表t??n?2为?的最小二估计量。

j?1n?^2j2(n?2),

凡满足?i?t?2(n?2)S的观测值就可以认为是异常值。在大样本的情况下,t分布与正态分布十分接近,因此,也可以按照正态分布的3?原则判断异常值。由普通残差的定义有:

var(?i)??2(1?hii)?(1?xi2Lxx)?2其中,Lxx?^i?1,2,...,n。

?x,2jj?1n22hj?(xixj)Lxx,显然有:?hij?(?xi2x2j)Lxx?xiLxx?hii

jj^从上面可以看出普通残差?i存在异方差问题,并且异方差大小取决于自变量xi的数值,条件?i~N(0,?),^2i?1,2,...,n很难满足。因此,用普通残差诊断异常值是不合适的,

它只能作为一个参考。 2.1.2异常值的删除残差诊断

在n个样本观测值的情况下,每次有n?1个样本观测值进行回归分析,并用所得到的估计结果来预测省略的哪个样本值,这样就可以得到删除残差:

??yi?y (2.1.2.1)

其中y为n个样本观测值中除去第i样本观测值后得到的yi的拟合值。在古典线形回归模型假设下,构造统计量: 其中S?[**i^*i^*i?i*S*~t(n?2) (2.1.2.2)

?(?j?1n*2j)](n?2)。在1??的置信水平下,查t分布表t?2(n?2),凡是满足

?i*?t?2(n?2)S*的观测值就可以认为是异常值。在大样本情况下,也可以按照正态分布

的3?原则判断异常值。与普通残差相比,尽管删除残差也存在异方差问题:

Var(?i*)?Var[(?i*)(1?hii)]?[Var(?i*)](1?hii)??2(1?hii),但在诊断异常值时普通

残差要包括异常值在内的所有样本观测值来拟合获得,所以很难发现异常值。而删除残差用其他样本观测值来拟合获得,因而更容易发现异常值。 2.1.3异常值的学生化删除残差诊断

学生化删除残差是删除残差除以其估计标准差,记为ri*,设去掉第i个观测值的回归模型中的?222的无偏估计为S(i),则第i个观测值的学生化删除残差为:

ri*??i*S(i),Var(ri*)?1 (2.1.3.1)

此时,ri*~t(n?3),在1??置信水平下查t分布表得到t?2(n?3),凡是满足

ri*?t?2(n?3)的观测值就可以认为是异常值。当然在大样本情况下也可以用正态分布的3?原则判断异常值。与删除残差相比,学生化删除残差不存在异方差问题。因此通过学生

化删除残差来诊断异常值更科学,更准确。

算例 智力测试数据:下表是教育学家测试的21个儿童的记录,其中X是儿童的年龄(与月为单位),Y表示某种智力指标,通过这些数据要建立智力随年龄变化的关系。先考虑其 线性模型。 表2.1

组数 1 2 3 4 5 6 7 8

x 15 26 10 9 15 20 18 11 y 95 71 83 91 102 87 93 100 组数 11 12 13 14 15 16 17 18 x 7 9 10 11 11 10 12 42 y 113 96 83 84 102 100 105 57 用SPSS统计软件求的其线性回归方程为:

y=109.874 -1.127x

用SPSS统计软件得到的残差图:

9 10 8 20 104 94

19 20 21 17 11 10 121 86 100

ScatterplotDependent Variable: yRegression Deleted (Press) Residual3210-1-260.0080.00100.00120.00ScatterplotDependent Variable: y403020100-10-2060.0080.00100.00120.00Regression Standardized Residual 图2.1 图2.2 yy ScatterplotScatterplotDependent Variable: y3Dependent Variable: yRegression Studentized Deleted (Press) ...43210-1-260.0080.00100.00120.00Regression Studentized Residual210-1-260.0080.00100.00120.00 图2.3 图2.4

yy 上面的图分别是因变量与标准化残差(图2.1)、剔除残差(图2.2)、学生化残差(图2.3)、学生化剔除残差(图2.4)的散点图。

从上面4幅散点图可以看到,有一点残差远离0点,推断它可能是异常值。 同时用SPSS统计软件可以求出它的各种残差、COOK距离和高杆值见下表:

组数 RES_1 DRE_1 ZRE_1 SRE_1 SDR_1 COO_1 LEV_1 1 2.03099 2.133 0.18 0.19 0.18 0 0 2 -9.57213 -11.3 -0.9 -0.9 -0.9 0.08 0.11 3 -15.604 -16.6 -1.4 -1.5 -1.5 0.07 0.02 4 -8.73094 -9.39 -0.8 -0.8 -0.8 0.03 0.02 5 9.03099 9.486 0.82 0.84 0.83 0.02 0 6 -0.33406 -0.36 -0 -0 -0 0 0.03 7 3.41196 3.622 0.31 0.32 0.31 0 0.01 8 2.52304 2.675 0.23 0.24 0.23 0 0.01 9 3.14207 3.415 0.29 0.3 0.29 0 0.03 10 6.66594 7.188 0.6 0.63 0.62 0.02 0.03 11 11.01508 12.11 1 1.05 1.05 0.05 0.04 12 -3.73094 -4.01 -0.3 -0.4 -0.3 0 0.02 13 -15.604 -16.6 -1.4 -1.5 -1.5 0.07 0.02 14 -13.477 -14.3 -1.2 -1.3 -1.3 0.05 0.01 15 4.52304 4.795 0.41 0.42 0.41 0.01 0.01 16 1.39605 1.49 0.13 0.13 0.13 0 0.02 17 8.65003 9.126 0.78 0.81 0.8 0.02 0 18 -5.54031 -15.9 -0.5 -0.9 -0.8 0.68 0.6 19 30.28497 31.98 2.75 2.82 3.61 0.22 0.01 20 -11.477 -12.2 -1 -1.1 -1.1 0.03 0.01 21 1.39605 1.49 0.13 0.13 0.13 0 0.02

表2.2 其中:非标准化残差(RES_1)、剔除残差(DRE_1)、标准化残差(ZRE_1)、学生化残差(SRE_1)、学生化剔除残差(SDR_1)、COOK距离(COO_1)、高杠杆值(LEV_1)。

取??0.05对他们进行残差诊断,求得S=11.023,t0.025(19)?2.093,因此有

S?t0.025(19)?22.476,与普通残差相比只有第19组数据的残差为30.28497比

S?t0.025(19)?22.476大,所以从异常值的普通残差(非标准化残差)诊断认为第6组数据为

异常值。

*还可以算出S?12.249,因此有S?t0.025(19)?25.637,与预测残差(剔除残差)相比

*只有第19组数据的残差为31.98,比S*?t0.025(19)?25.637大, 从异常值的剔除残差诊断认为第19组数据为异常值。已知学生化剔除残差最大值是第19组数据的残差为3.61,大于

t0.025(18)?2.101,而其他残差值小于t0.025(18)?2.101,故从学生化剔除残差也可以认为第

19组数据为异常值。

从整个残差表中残差的值,可以看出除第19组数据外,其他数据用残差诊断都可以认为不是异常值,即只有第19组数据是异常值。第18组数据的残差相对较小,但其COOK距离和高杠杆值均远远大于其他值(甚至是19组数据的值),所以第18组数据是一个影响很大的数据。因此,可以利用COOK距离和高杠杆值判断第18组据为高杠杆点。一般异常值往往有极大的残差,而高杠杆点往往仅仅是对应于极端大的hii点,不一定有极大的残差。 3 结论

3.1 异常值的处理

诊断出异常值后,就要进一步判断引起异常值的原因,通常引起异常值的原因有下面几条:

异常值的原因 数据登记错误,存在抄写或录入的错误 数据测量错误 数据随机误差 缺少重要自变量 缺少观察数据 存在异方差 模型选取错误,线性模型不适合 异常值的消除方法 重新核实数据 重新测量数据 删除或重新观测异常值数据 增加必要的自变量 增加观测数据,适当扩大自变量的取值范围 采用加权线性回归 改用非线性回归模型 对引起异常值的不同原因,需要采用不同的处理方法。 如果一个异常值的数据是准确的,但是找不到对它合理的解释,与剔除这个观测值相比,一个更稳健的方法就是抑制它的影响。 参 考 文 献

[1] 《应用回归分析》 何晓群 刘文卿编著 中国人民大学出版社 2001 [2] 《线性回归模型引论》王松桂 史建红等编 科学出版社 2005 [3] 《现代回归模型诊断》 吴喜之 田茂再编著 中国统计出版社 2003 [4] 《统计软件SPSS系列》苏金明 傅荣华 等编著 电子工业出版社 2002


回归中异常值的残差诊断探讨.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:机电控制工程基础综合练习解析-2013秋

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: