SAS讲义 第二十五课方差分析(2)

2019-08-29 23:08

ijH0:?i??ji?j,i,j?1,2,?,k

(25.18)

均值间的多重比较的方法从形式上可分为几类:临界值相对固定的两两比较、临界值不

固定的多级检验、全部处理组均值与一个对照组均值比较。每一种类型中,根据所控制误差的类型和大小不同,又有许多不同的具体方法。如T(成组比较t检验法)、Bon(Bonforroni t检验法)、Dunnett(与对照组均数比较)、SNK(Student-Newman-Keuls或称q检验法)、Tukey(学生化极差HSD或称最大显著差)、Duncan(新多极差检验法)、LSD(最小显著差)、SIDAK(Sidak不等式进行校正t检验法)、SCHEFFE(Scheffe的多重对比检验)、Waller-Duncan(k比率t检验)、GT2或SMM(学生化最大模数和Sidak不等式进行校正t检验法)、REGWF(多重F检验)、REGWQ(多重极差检验)。

在多重比较时,选用什么样的检验方法,首先要注意每种方法适用的试验设计条件,其次要关心所要控制的误差类型和大小。例如,某因素有10个水平,若采用通常的t检验进行

2多重比较,共需要比较的次数为C10?45次,即使每次比较时都把第一类错误?控制在0.05

水平上,但经过45次多重比较后,犯第一类错误的概率上升到:1?(1?0.05)45?0.90。从中我们可以看到选用t检验法进行多重比较,仅仅控制了每次比较的显著水平,但却大大增加了整体的显著水平。

下面是所要控制的几种误差类型和选用的检验方法: ? 第一类误差率——即犯第一类错误的概率?。 ? 比较误差率——即每一次单独比较时,所犯第一类错误的概率。可使用T法、LSD

法、DUNCAN法。

? 试验误差率——即完成全部比较后,整体所犯第一类错误的概率。

? 完全无效假设下的试验误差率——即在H0假设完全无效下的试验误差率。可使用

SNK法。

? 部分无效假设下的试验误差率——即在H0假设部分无效下的试验误差率。 ? 最大试验误差率——即在在H0假设完全或部分无效下,完成全部比较后所犯第一类错误的最大概率。可使用BON法、SIDAK法、SCHEFFE法、TUKEY法、GT2/SMM

法、GABRIEL法、REGWQ法、REGWF法、DUNNETT法。

1) T检验和Bonforroni检验

当因素有k个水平时,对任意两个水平均值间的差异的显著性检验,可用 t统计量

tij?yi??yj??Se??1?1??n?k??ninj?~t(n?k)

(25.19)

2两两比较的次数共有m?Ck=k(k?1)/2,因此,共有m个置信水平,每次比较的显著水平:

T检验的方法取?。完成所有比较后的整体显著水平等于

1?(1??)m

(25.21)

当比较次数m越大,试验误差就越大。而Bonforroni检验的方法取?/m。完成所有比较后

上海财经大学经济信息管理系IS/SHUFE

Page 6 of 30

的整体显著水平等于

1?(1??/m)m??

(25.22)

即最大试验误差率小于?。 2) LSD检验

既可以通过两两比较的显著水平的特定限制来控制最终的试验误差率,也可以通过两两比较的绝对差异界限来判别显著性。最容易想到的这个界限就是在两两比较中采用的t检验法而得到Fisher最小显著差(LSD)为

Se?11??LSDij?t?(n?k)??

?n?k?ninj?2?当yi??yj??LSDij时,则P??。

(25.23)

3) SNK检验和Duncan检验

SNK法和Duncan法都属于多级检验法中的一种,使用多级检验可以获得同时检验的更高效率。多级检验分为步长增加法和步长减少法,SAS系统采用步长减少法。当因素有k个水平时,即有k个均值需要比较,检验步骤为:

① 将均值由大到小排队,即y1??y2??,?,?yk?。

② 比较y1?与yk?是否有显著差异。此时跨度a?k。若两者之间无显著差异,说明

其他均值之差比它小的任何两个水平均值之间的差别也无显著性,所以停止一切比较;反之,则继续进行下一步。

③ 比较y1?与yk?1?,比较y2?与yk?是否有显著差异。此时这2个比较的跨度

a?k?1。若两者之间的比较无显著差异,则停止一切比较。如果每一步都有不

满足停止比较的对比组存在,最后应到达跨度为2的所有需要比较的相邻两水平均值间都作完比较时为止。

多级检验在作每一级比较时,通过控制比较误差率?a的显著水平来实现其最终要控制的试验误差率。要注意的是?a在每一级比较时可能是不同的,它是跨度a和整体试验误差率?的函数,即?a?f(a,?)。另外,要注意的是?a其实就是每一级比较时特定统计量分布的显著水平。常用的两种方法是SNK检验和Duncan检验。它们的检验统计量为q(也称学生化极差统计量),如下

qij?yi??yj??Se??1?1??2(n?k)??ninj?~q(a,n?k)

(25.24)

其中a是yi?和yj?之间的跨度值,q分布的自由度是a和n?k,显著水平为?a。SNK检验和Duncan检验的区别主要在于?a取值

上海财经大学经济信息管理系IS/SHUFE

Page 7 of 30

? SNK检验:?a??。注意,当比较次数很大时,最大试验误差率将趋向于1。 ? Duncan检验:?a?1?(1??)a?1。

四、 随机单位组设计的方差分析

随机单位组设计(randomized block design)又称随机区组设计或随机配伍组设计,它是两样本配对试验的扩大。欲比较因素A中的k个水平的各个均值,试验设计时,先将受试对象按性质相同或相近者组成单位组,每个单位组有k个受试对象,分别随机分配到因素A的k个水平上。这时每个水平的受试对象,不仅数量相同,而且性质也相同或相近,就能缩小误差,提高试验效率。这样的设计可将单位组看作一个因素,就成为两个因素的设计(因素与单位组),由于两个因素的各水平仅仅交叉1次,所以重复数为1,在这样的意义下,随机单位组设计可看作为两因素重复数为1的设计,一般这种设计不考虑交互影响。

设有因素A具有k个水平,受试对象按性质相同或相近者分成b个单位组,每个单位组有k个受试对象,分别随机分配到因素A的k个水平上。那么,随机单位组设计的方差分析表见表25.2所示:

表25.2 方差分析表形式

变异来源 source 因素A 单位组 误差Se 总变异ST 离差平方和 SS SSA SS单 SSe 自由度 df 均方 MS MSA= SSA/( k-1) MS单= SS单/( b-1) F统计量 F FA= MSA/ MSe F单= MS单/ MSe P概率值 P PA P单 PT k-1 b-1 bk-k-b+1 MSe= SSe/( bk-k-b+1) MST= SST/( bk-1) FT= MST/ MSe SST= SSA+ SS单+SSe bk-1

五、 析因设计的方差分析

析因设计(factorial design)是一种多因的设计。各因素在试验中所处的地位基本平等,而且因素之间存在一级(即2个因素之间)、二级(即3个因素之间)乃至更复杂的交互作用。例如,两个因素时,第1个因素有3个水平,第2个因素有2个水平,全部水平组合共有3×2=6种组合,每种组合都作试验时就是析因试验设计,也可称为3×2析因试验设计。同样3×4×2析因试验设计,则代表3个因素,分别有3,4,2个水平,全部试验后的水平组合为3×4×2=24种。在每一种组合下,适当重复几次,称为重复数。重复数可以不相等,一般地说,重复数相等时,效率最高。

析因设计能够检验每个因素的各水平间主要变量的平均值的统计差异,也能检验因素间的交互影响。当存在交互影响时,表示一个因素各水平间的差异会随着另一个因素的水平改变而不同;当不存在交互影响时,则各个因素独立,即一个因素的水平改变时不影响另一个因素的各个水平之效应。析因设计的方差分析因为能研究交互影响,所以能提供较多信息。但是,当有较高级(二级以上)的交互影响时,由于涉及多个因素,各有多个水平,情况将错综复杂,可能会引起解释上的困难。

析因设计的方差分析同样是从数据差异的总平方和开始分解。例如,对于A×B双因素方差分析,这个总差异能分解成:A因素的各个水平之间的差异,B因素的各个水平之间的差

上海财经大学经济信息管理系IS/SHUFE

Page 8 of 30

异,A与B的各种不同组合之间的差异,以及观察数据必然会产生的随机误差这四部分。方差分析的主要目的就是要将这四部分从总平方和中分离出来,再以各个平方和与误差平方和作比较。假设A因素有r个水平,B因素有c个水平,每一种水平下的重复数为m,那么总的观察数据有n=r×c×m个,方差分析表见表25.3所示:

表25.3 双因素(r×c)重复数m的方差分析表形式

变异来源 source 因素A 因素B A×B 误差Se 总变异ST 离差平方和 SS SSA SSB SSAB SSe SST= SSA+ SSB+ SSAB +SSe 自由度 df 均方 MS MSA= SSA/( r-1) MSB= SSB/( c-1) F统计量 F FA= MSA/ MSe FB= MSB/ MSe FT= MST/ MSe P概率值 P PA PB PAB PT r-1 c-1 (r-1)(c-1) MSAB= SSAB/(( r-1)( c-1)) FAB= MSAB/ MSe r×c×(m-1) MSe= SSe/( rc(m-1)) r×c×m-1 MST= SST/( rcm-1)

六、 拉丁方设计的方差分析

若试验中涉及到3个因素,当它们之间不存在交互作用或交互作用可以忽略不计,且各因素均取相同水平时,适合于选择拉丁方设计。用K个拉丁字母排成K行K列的方阵,使每行每列中每个字母仅出现1次,这样的方阵称为拉丁方(latin square)。然后将3个因素分别放置到拉丁方的行、列及字母上面。例如,三个4×4的拉丁方为:

A B C D A B C D A B C D B A D C B A D C D C B A D C B A C D A B B A D C C D A B D C B A C D A B

四个5×5的拉丁方为:

A B C D E A B C D E A B C D E A B C D E B C D E A C D E A B D E A B C E A B C D C D E A B E A B C D E A B C D D E A B C D E A B C B C D E A B C D E A C D E A B E A B C D D E A B C C D E A B B C D E A

使用时可选择其中一个。拉丁方试验设计的关键是这3个因素之间不存在交互作用或者交互作用可以忽略不计,一般情况是仅涉及到1个试验因素,因此就不存在交互作用。试验因素有K个水平(如A、B、C、D、E),还有2个是非处理因素,或者说是2个区组因素,让这2个区组因素也正好取K个水平,同时把这2个区组因素放在K×K拉丁方阵的横向和纵向上,构成了K×K个区组水平组合,每种组合下伴有试验因素K个水平中的1个水平。

七、 proc anova和proc glm过程

SAS系统的STAT软件提供了anova过程和glm过程等几个过程进行方差分析。anova过程主要处理均衡数据,所谓均衡数据是指自变量(或称分类变量)的每种组合中的观察数是相等的,如果不相等则称为非均衡数据。。虽然glm过程能够处理均衡和不均衡的两种数据,但是anova过程考虑到均衡设计的特殊构造,对于均衡数据使用anova比使用glm计算快且占用存储少,还可以处理拉丁方设计、若干不完全的均衡区组设计等等。因此,无论何

上海财经大学经济信息管理系IS/SHUFE

Page 9 of 30

时作方差分析,一旦可能都应该用anova过程来完成。如果试验设计不均衡,也不是上述的几种特殊情况之一,那么应该使用glm过程。 1. anova过程的语句格式

anova过程的主要控制语句如下:

proc anova 输入数据集名 <选项列表> ;

class 变量列表 ;

model 因变量列表=自变量列表 ; means 效应列表 ; test E=效应列表; run ;

其中class语句、model语句是必需的,而且class语句必须出现model语句之前。test语句必须放在model语句之后。

1) proc means 语句中的<选项列表>。

? manova——按多元方式删除那些含有丢失值的观察,也即在因变量中有丢失值就从这次分析中删除这个观察。

? outstat=输出数据集名——生成一个输出数据集,它包含模型中每个效应的平方和、F统计量和概率水平。 2) class语句。

在anova过程中要使用的分类变量、区组变量必须首先在class语句的变量列表中说明。Class语句是必需的,且必须放在model语句前面。Class变量可以是数值型,也可以是字符型。

3) model 语句。

该语句用来规定因变量和自变量效应。如果没有规定自变量的效应,则只拟合截距,假设检验为因变量的均值是否为0。Model语句的主要形式有四种:

① 主效应模型 Model y=a b c;

② 含有交叉因素的模型

Model y=a b c a*b a*c b*c a*b*c; ③ 嵌套模型

Model y=a b c(a b);

④ 包含嵌套、交叉和主效应的模型 Model y=a b(a) c(a) b*c(a); Model语句的选项列表有:

int——打印与截距有关的假设检验结果。anova过程总是把截距作为模型的一个效应进行处理,缺省时,不打印结果。

? nouni——不打印单变量分析结果。 4) means 语句。

该语句是用来计算在means语句后列出的每个效应所对应的因变量均值。Anova过程可以对出现在model语句等号右边的任一效应计算因变量的均值。不过这些均值没有针对模型中的效应进行修正。如果需要修正的均值,应该调用glm过程,使用其中的lsmenas语句。在anova过程里可以使用任意多个means语句,它们放在model语句后面。

Means语句的选项列表主要有两个内容,一是选择多重比较的检验方法,二是规定这些

上海财经大学经济信息管理系IS/SHUFE

Page 10 of 30


SAS讲义 第二十五课方差分析(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:集中供暖改造工程项目可行性研究报告

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: