统计学 第七章 方差分析
目 录
第七章 方差分析 __________________________________________________________________________ 2
第一节 方差分析概述 ____________________________________________________________________ 3 一、方差分析中的常用术语 _____________________________________________________________ 3 二、方差分析的基本思想 _______________________________________________________________ 4 三、方差分析的基本假定 _______________________________________________________________ 4 第二节 单因素方差分析 __________________________________________________________________ 4 一、单因素方差分析的数据结构 _________________________________________________________ 4 二、单因素方差分析的步骤 _____________________________________________________________ 5 二、方差分析中的多重比较 _____________________________________________________________ 8 第三节 双因素方差分析 __________________________________________________________________ 9 一、双因素方差分析的种类 _____________________________________________________________ 9 二、无交互作用的双因素方差分析 _______________________________________________________ 9 三、有交互作用的双因素方差分析 ______________________________________________________ 13 英文摘要与关键词 ______________________________________________________________________ 17 习 题 ________________________________________________________________________________ 17
第1页
统计学 第七章 方差分析
第七章 方差分析
通过本章的学习,我们应该知道:
1. 方差分析的基本思想与假定 2. 如何做单因素方差分析 3. 如何做双因素方差分析
4. 会用Excel中有关方差分析的功能
第2页
统计学 第七章 方差分析
在第六章中我们讨论了如何对一个总体及两个总体的均值进行检验,如我们要确定两种销售方式的效果是否相同,可以对零假设H0:?1??2检验。但有时销售方式有很多种,如表7.1中列出了四种,这就是多个总体均值是否相等的假设检验问题了,所采用的方法是方差分析。
【例7.1】某公司采用四种方式推销其产品。为检验不同方式推销产品的效果,随机抽样得下表:
表7.1 某公司产品销售方式所对应的销售量 序号 销售方式 方式一 方式二 方式三 方式四 1 77 95 71 80 2 86 92 76 84 总均值 进行多次检验,但这显然工作效率低。
方差分析(Analysis of Variance, ANOVA),是20世纪20年代由英国统计学家费雪(Ronald Aylmer Fisher)首先提出的,最初主要应用于生物和农业田间试验,以后推广到各个领域应用。它是直接对多个总体的均值是否相等进行检验,这样不但可以减少工作量,而且可以增加检验的稳定性。
3 81 78 68 79 4 88 96 81 70 5 83 89 74 82 水平均值 83 90 74 79 81.5 例7.1中要研究的问题是这四个销售量的均值之间是否有显著差异,当然我们可以采用第六章的方法
第一节 方差分析概述
一、方差分析中的常用术语
1. 因素(Factor)
因素是指所要研究的变量,它可能对因变量产生影响。在例7.1中,要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。
如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。本章介绍单因素方差分析和双因素方差,它们是方差分析中最常用的。
2. 水平(Level)
水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。
3. 单元(Cell)
单元指因素水平之间的组合。如销售方式一下有五种不同的销售业绩,就是五个单元。方差分析要求的方差齐性就是指的各个单元间的方差齐性。
4. 元素(Element)
元素指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。例7.1中各单元中只有一个元素。
5. 均衡(Balance)
如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。例7.1是均衡的。
6. 交互作用(Interaction)
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。
第3页
统计学 第七章 方差分析
二、方差分析的基本思想
要看不同推销方式的效果,其实就归结为一个检验问题,设?i为第i种推销方式i(i=1,2,3,4)的平均销售量,即检验原假设H0:?1??2??3??4是否为真。从数值上观察,四个均值都不相等,方式二的销售量明显较大。然而,我们并不能简单地根据这种第一印象来否定原假设,而应该分析?1、?2、?3、
?4之间差异的原因。
从表7.1可以看到,20个数据各不相同,这种差异可能由两方面的原因引起的:一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动;这种由不同水平造成的差异,我们称为系统性差异;另一是随机因素的影响,同一种推销方式在不同的工作日销量也会不同,因为来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称为随机性差异。两个方面产生的差异用两个方差来计量:一是?1、?2、?3、?4之间的总体差异,即水平之间的方差,一是水平内部的方差。前者既包括系统性差异,也包括随机性差异;后者仅包括随机性差异。如果不同的水平对结果没有影响,如推销方式对销售量不产生影响,那么在水平之间的方差中,也就仅仅有随机性差异,而没有系统性差异,它与水平内部方差就应该接近,两个方差的比值就会接近于1;反之,如果不同的水平对结果产生影响,在水平之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于水平内方差,两个方差的比值就会比1大,当这个比值大到某个程度时,即达到某临界点,我们就作出判断,不同的水平之间存在着显著性差异。因此,方差分析就是通过对水平之间的方差和水平内部的方差的比较,做出拒绝还是不能拒绝原假设的判断。
三、方差分析的基本假定
在方差分析中通常要有以下假定:首先是各样本的独立性,即各组观察数据,是从相互独立的总体中抽取的,只有是独立的随机样本,才能保证变异的可加性;其次要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。
1.对于每个总体都应服从正态分布,也就是说,对于因素的每一具水平,其观察值来自服从正态分布总体的简单随机样本;2.各个总体的方差必须相同,也就是说,对于各组观察数据,是从具有相同方差的总体中抽取的;3.观察值是独立的。
在上述假设条件成立的情况下,数理统计证明,水平之间的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从F分布的统计量,我们可以通过对这个统计量的检验做出拒绝或不能拒绝原假设的决策。
F = 水平间方差 / 水平内方差 = 组间方差 / 组内方差
第二节 单因素方差分析
一、单因素方差分析的数据结构
在单因素方差分析中,若因素A共有r个水平,对均衡试验而言,每个水平的样本容量为k,则共有kr个观察值,如表7.2所示。对不均衡试验,各水平中的样本容量可以是不同的,设第i个样本的容量是ni,则观测值的总个数为n??ni?1ri。
表7.2 单因素方差分析的数据结构 观测值j 水平i 因 水平1 1 2 ?? ?? k x11 x12 第4页
x1k 统计学 第七章 方差分析 素 A 水平2 ┋ 水平r x21 ┋ x22 ┋ ?? ┋ ?? x2k ┋ xr1 xr2 xrk 二、单因素方差分析的步骤
(一)单因素方差模型与建立假设
方差分析最初是针对试验设计的试验结果的分析而提出的。设在某试验中,因素A有r个水平
A1,?,Ar,在水平Ai下的试验结果Xi服从N(?i,?2),i?1,?,r,这里X1,?,Xr相互独立。在水平Ai下做了ni次试验,得到ni个观测结果xij,j?1,?,ni,它们可以看作是来自Xi的一个容量为ni的样本。因为xij~N(?i,?2),所以可得单因素方差分析模型如下:
xij??i??ij (7.1)
其中随机误差?ij相互独立,都服从N(0,?2)分布。要检验的假设是
H0:?1??2????r,H1:?1,?2,?,?r不全相等。
1r以?表示这r个总体均值的平均值,即????i称为一般水平或平均水平,令?i??i??称为因素Ari?1的第i个水平的效应,由第四章算术平均数的性质易得
??i?1ri?0。把原参数?i变换成新参数?i后,
i?1,?,r,单因素方差分析模型则变为:
xij????i??ij (7.2)
其中xij表示水平Ai的第j个观察值。上述要检验的假设则等价于
H0:?1??2????r?0,H1:?1,?2,?,?r不全为0。
对于例7.1要比较四种推销方式对应的销售量是否存在差异,那么第一种推销方式中的某个观察值就等于该种方式的平均水平再加上一个随机误差。如果四种方式总体均值都相同,则它就等于总体均值再加上一个随机误差,实际上就变成了同一个变量分布中的某一点。所以原假设和备择假设是:
H0:?1??2??3??4,即推销方式对销售量影响不显著; H1:?1,?2,?3,?4不全等,即推销方式对销售量有显著影响。
(二)构造检验F统计量 1. 水平的均值
我们令xi为第i(或Ai)水平的样本均值,则
?1xi??ni??xj?1niij (7.3)
当各水平的的观察值个数均相等的时候,公式(7.3)变为:
1kxi???xij kj?1? (7.4)
2. 全部观察值的总均值 我们令x为全部观察值的总均值,则 rni??xx?i?1j?1rij i (7.5)
?ni?1当各水平的的观察值个数均相等的时候,公式(7.5)变为:
第5页