SPSS课件第8章

2019-06-05 00:22

第8章 方差分析

在前面的第5章,我们讲述了两独立样本参数的t检验,通过t检验可以判断两个总体的均值是不是有显著差异。那么,我们不禁要问:如果要判断的总体不止两个,而是多个,我们该如何进行均值间的比较呢?对多个总体两两进行独立样本t检验是一种处理方法,但是随着总体数目的增多,这种方法的弊端会越来越明显,假如我们要检验100个总体,那需要做C100=4950次两两比较,真是一件繁琐又浩大的工程。有没有一种方法能够不进行两两比较直接从整体上解决多总体的均值的比较呢?SPSS提供方差分析来完成这一工作。

在工业、农业、经济、医学、金融等许多学科领域,方差分析被广泛应用于数量分析研究,发挥了越来越重要的作用。方差分析这种将数据差异划分为几种原因并进行比较分析找出总体规律的思想,是非常重要的一种统计思想,在很多统计方法中也经常使用,掌握方差分析,不仅让我们掌握了一件分析数据的有力工具,而且有助于我们对统计思想的深入理解,培养统计思维,可谓一举双得。下面我们就来具体说说方差分析的基本思想和步骤。

28.1 方差分析概述

方差分析从实质上来说是两独立样本t检验推广到多独立总体情形的假设检验,是一种参数检验方法,其检验的是多总体的均值是否存在显著差异。

例如,在证券市场中,我们要考察不同行业的股票,在一轮大牛市中上涨的平均幅度是否相同,即股票在牛市中是否存在行业差异。此时,我们需要在每个行业中选取一些股票作为样本,计算其涨幅,然后再比较这些行业平均涨幅是否相同。这也仅仅考虑行业对证券的影响,其实证券的影响因素还有很多:地域、概念、宏观政策等,这些因素中哪些对股票有显著的影响,哪些没有显著的影响。更进一步来说,如果肯定了行业对股票涨幅有影响,那么我们还需要确定究竟是哪个行业的股票的平均涨幅最大,哪个行业的平均涨幅最小,它们之间的差异是不是显著的。在清楚了这些问题以后,我们就可以针对某个行业的股票制定投资策略了。

上面仅仅是单个因素的考虑影响,当同时考虑多个因素对股票涨幅的影响时,例如:行业、地域因素同时考虑,问题就复杂了,这里面不仅有单个因素本身的影响,还存在两个因素的关联性对股票的影响,需要仔细甄别。

以上这些问题都可以利用方差分析来解决,为了解释方差分析的思路,我们需要对上面的一些概念做些定义:在方差分析中,将我们关心的总体取值称为观测因素或观测变量,例如上面例子中股票的涨幅就是观测变量;而上面例子中的行业、地域、概念、政策等影响观测变量的因素称为控制因素或控制变量;将控制变量的不同取值称为不同水平,例如行业中有农业、建筑、房地产、煤炭、石油、钢铁等,都是行业的水平。方差分析的问题理论上概括起来就是:检验观测变量在控制变量的不同水平上是否存在显著差异。下面我们就来看看方差分析解决问题的思路。

8.1.1 方差分析解决的问题

上面已经讲到,方差分析所要解决的问题就是检验观测变量在控制变量的不同水平上的取值是否存

『 2 』

第8章 方差分析

在显著差异。关于观测变量和控制变量,有些读者不会区分,我们简单说明如下:

? 观测变量是连续变量,而控制变量取值一般是有限的几个水平,不能去很多个值,即从变量尺

度来看,观测变量是间隔尺度,而控制变量是名义尺度或顺序尺度变量。

? 观测变量一般是变量取值比较随机,不容易控制的量,它的取值只能进行观测记录;而控制变

量是相对取值易于控制、能确定取值的变量。

方差分析分析思路是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。对观测变量有显著影响的控制变量中,还需要分析出控制变量的不同水平及水平的交互搭配是如何影响观测变量的。

具体来说,方差分析认为观测变量的变化受两方面的因素的影响:第一类是控制变量不同水平所产生的影响;第二类是控制变量以外的随机因素(随机变量)所产生的影响。这里随机因素是指认为很难控制的因素,包含实验过程中的抽样误差,以及许多影响细微的因素。将第一类因素的影响称为系统误差,将第二类因素的影响称为随机误差。

如果控制变量的不同水平对观测变量产生显著影响,那么观测变量在控制变量的不同水平上取值的平均数一定会发生变化;反之,如果控制变量对观测变量不产生影响,那么在控制变量的不同水平上观测变量取值的平均数将不会有显著差异。如果将控制变量的不同水平上观测变量取值看作是独立的总体,可以看到方差分析就是多独立总体的均值检验问题,如果均值有差异,说明控制变量是影响观测变量的主要因素,此时称观测变量主要受系统误差影响;如果均值无显著差异,说明随机变量是影响观测变量的主要因素,此时称观测变量不存在系统误差或称观测变量主要受随机误差影响。关于如何检验系统误差,方差分析中控制因素个数不同检验方法也有一些差别,在8.2节和8.3节中将详细介绍。总体说来都是利用F统计量和F分布来完成的。

8.1.2 方差分析的应用条件

在应用上面方差分析的全过程时,我们需要强调必须满足下面的条件: 第一、观测变量在控制变量各水平上的取值即各总体必须满足正态分布

方差分析是一种参数检验的方法,既然是参数方法,就对总体分布有着假定,在方差分析中,假定各总体的分布是正态分布,这也是能够推导出F统计量服从F分布的基础,而SPSS对P值是依据F分布计算的。一旦总体不服从正态分布,那么F统计量自然不再服从F分布,自然SPSS给出的P值对于统计检验来说将不再有任何意义。因此在进行方差分析之前,需要验证各总体的分布是否是正态分布,验证的方法可以使用Q-Q图,也可以使用第6章讲述的单样本非参数K-S检验。

第二、观测变量各总体的方差应该相同

这个条件统计上称为方差齐性,这个条件对于推导F统计量的分布以及其自由度也是非常重要的,如果这个条件得不到满足,那么F统计量也不再服从F分布,其自由度也不再是理论上推导出来的自由度了。同样SPSS给出的P值对于统计检验也将不可用。不过相比较而言,这个条件对假设检验的影响比第一个条件要小一些。第一个条件不满足,完全不能用方差分析,而第二个条件不满足,还可以利用SPSS计算出的统计量的值,根据修正的自由度手工计算准确的概率P值,完成假设检验。

第三、控制变量一定是取值有限的名义尺度或顺序尺度变量

控制变量的各水平,即控制变量的各取值决定了方差分析中假设检验的总体个数,只有控制变量取少数几个值时,才能保证每个总体有充足的样本数去计算样本均值和样本方差;一旦总体个数太多,那每个总体内的样本数就会减少,计算的样本均值和样本方差可能会出现较大的偏差,将会影响假设检验整体的精度。这个条件对假设检验的影响最小,即使不满足我们也能采取一些方法使得方差分析能够完

第二篇 SPSS与统计基础统计分析

成。

8.1.3 应用条件不满足的处理办法

从上面的条件可以看出,对控制变量有一个条件,对观测变量有两个条件。其中对观测变量的条件不满足对方差分析影响大,而对控制便利的条件不满足对方差分析影响小。下面我们就根据对假设检验的影响程度从小到大的顺序说明三个条件不满足我们该如何处理。

当第三个条件不满足即控制变量是间隔尺度变量时,可以利用变量重赋值功能,将控制变量进行区间划分,生成一个新的顺序尺度变量,此时以新生成的变量作为控制变量,就能够完成方差分析的假设检验了。从上面的处理办法可以看出这个条件无关大局,如果控制变量不满足条件只是多一道变量预处理过程。

当第二个条件不满足即各总体方差不齐时,严格说来只要总体满足正态分布,还是可以进行方差分析,此时有两个处理方法:一是利用SPSS计算出的组内方差和组间方差值,手工构造新的统计量和推导新的统计量的分布,在进行统计决策;二是对方差较小的总体样本进行等比例放大,比例系数就是两个总体样本标准差的比值,对样本进行处理以后,也可以进行方差分析。上述两个方法第一个方法比较准确,但是需要专业的统计知识,而且新的统计量P值需要手工计算,可实施性较差;第二个方法比较容易实行,但是会影响方差分析一定的精度,因为这相当于人为放大了一部分总体的方差,这必然对组内方差和组间方差有影响,当总体数目较多(四个以上)时,相对来说给便一个总体的方差对整个组内方差和组间方差影响较小,可以采用这种方法。

当第一个条件不能满足时,就不能实行方差分析了,如果要比较各总体的均值和分布是否相同,可以采用第6章多独立样本非参数检验的方法。推荐使用Kruskai-Wallis检验。

8.2 单因素方差分析

根据方差分析中根据控制变量的个数可以分成单因素方差分析、多因素方差分析和协方差分析。当控制变量是一个变量时,称为单因素方差分析,这是所有方差分析中最简单的,我们就从单因素方差分析开始讲解方差分析的具体步骤。

8.2.1 引例:单因素方差分析概述

在本小节中,我们还是通过一个具体的例子来加深对单因素方差分析的理解:

例8-1 在研究工作和工资的问题时,有一个有趣的现象:随着年龄的增长,工资也会随着增长,但是是否这一现象对于所有的职业都存在呢?本书收集的3000个护士工资的数据(数据见光盘8-1.sav),请分析年龄是否对工资有显著的影响。 我们首先研究一下数据8-1.sav,发现年龄分为三个阶段:18-30岁是年轻护士,31-45岁是中年护士,45-65岁是老年护士。如果我们把年龄作为控制变量,显然它有三个水平,这是一个三总体的均值检验问题,由于控制变量只有一个,可以利用单因素方差分析来解决这个问题。

将三个年龄段的护士看作三个总体,护士按小时的工资就是观测变量,需要检验的是三个总体的护士按小时工资的均值是否有显著差异,如果工资均值有显著性差异,则说明护士的工资受到控制因素年龄的影响,存在系统误差;如果均值没有显著差异,则说明护士工资主要受随机因素的影响,不存在系统误差,当然也就说明年龄对工资没有影响。

那么如何判断观测变量即工资是否受系统误差的影响呢?这就要从方差分析的数序模型和检验统计

『 4 』

第8章 方差分析

量构造来说明了。方差分析的数学模型是:假设在控制变量各个水平上,观测变量样本取值为:

Xij??i??ij,i?1,2,...,k,j?1,2,...,ni

其中i代表控制变量的第i个水平,即第i个总体,?i表示第i个总体的均值,即年龄段的平均工资,

?ij表示第i个总体第j个样本受随机因素的影响,是服从正态分布的随机变量。而ni表示第i个总体中

的样本数,k表示总体数,本例中k=3。

n1???nk?n

将各总体均值求平均,得到总的均值

1k????i

ki?1如果各总体均值没有差异,都等于?,那么样本取值就只受到随机因素?ij的影响,如果各总体均值不相等,那么样本取值就同时受到总体均值和随机因素的影响,方差分析要检验的就是样本取值有没有受各总体均值的影响,当然在构造统计量时,需要用样本统计量Xi和X去估计各总体均值?i和总均值

?。

假设检验的原假设是:

t ?p??q H0:?1??2?...??k,与之相应的备择假设是:H1:? p,q, s..即原假设是各总体均值相等,即观测变量主要受随机误差的影响。考虑观测变量的样本方差构成:

1kni1kni2S?(Xij?X)?(Xij?Xi?Xi?X)2????n?1i?1j?1n?1i?1j?121kni?[(Xij?Xi)2?(Xi?X)2]??n?1i?1j?1k1kni2?[??(Xij?Xi)??ni(Xi?X)2]n?1i?1j?1i?1

从公式看,样本方差由两部分构成,一部分即组内方差,即

2(X?X)??iji,记为SSA;另一部i?1j?1kni分为组间方差即

?n(Xii?1k2?X),记为SSE。如果原假设为真,那么样本方差的主要部分将是组内方差,i组间方差较组内方差来说将会很小,同样,如果原假设不真,那么样本方差的主要部分将是组间方差,

组间方差较组内方差来说就会较大,据此,将两方差相除,构造统计量:

第二篇 SPSS与统计基础统计分析

F?SSA/(k?1)MSA ?SSE/(n?k)MSE式中MSA和MSE分别称为组间和组内的平均方差。在原假设为真的条件下,统计量服从自由度为k-1和n-k的F分布。如果F统计量观测值较小,说明组内方差(分母)大,组间方差(分子)小,此时不能拒绝原假设;相反如果F统计量观测值较大,说明组间方差大(分子)大,组内方差(分母)小,此时就要拒绝原假设,认为控制变量各水平对观测变量有显著影响了。SPSS会自动计算F统计量的观测值以及相应的概率P值,根据P值就可以完成统计检验了。

8.2.2 单因素方差分析的SPSS实现

在8.1.3我们已经指出,在进行方差分析之前,需要验证方差分析需要满足的三个条件,现在第三个条件已经满足,不用验证;重点来验证前面两个条件。

对于正态分布的验证,我们利用第6章单样本K-S检验来完成,由于这里分别要检验三个年龄段样本的正态性,因此需要将数据集文件按照年龄段进行拆分,具体操作我们简要列出,留给读者自行对照第2章内容完成,作为对前面内容的复习和巩固。

文件拆分操作:

Step1:选择【Data】菜单→【Split File】菜单

Step2:选择Compare Groups单选按钮,将变量“年龄范围(agerange)”选入Group Based on 变量框中,设置完成后点击

完成操作。

文件拆分以后就可以完成单样本K-S非参数检验,操作请读者参照第6章相关内容自行完成,这里限于篇幅,不列出全部结果,仅仅列出关键结果:

表8-1 每小时薪水Statistics

8-30

Std. Deviation 3.94875

Variance

31-45

15.593

Std. Deviation 3.90906

Variance

15.281

46-65

Std. Deviation 4.05968

Variance 16.481


SPSS课件第8章.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:基于导频的ofdm系统的信道估计程序

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: