方差分析
常用于方差分析的主要过程有ANOVA和GLM(广义线性模
型),对于平衡数据资料(各水平下等重复,数据没有丢失),一般用ANOVA过程,对于非平衡数据,应采用GLM过程. 1、
ANOVA过程格式及使用说明
过程格式:
PROC ANOVA [选项]; CLASS 处理因素; MODEL 因变量=效应表[/选择项]; MEANS 效应表 [/选择项]; 过程说明:
◆ PROC ANOVA 语句的选项主要有:
DATA=数据集名 指明要分析的SAS数据集,缺省时SAS将使用最近建立的数据集.
OUTSTAT=输出数据集 ◆CLASS
指定分析计算结果输出的数据集名.
语句指明分类变量,是ANOVA过程的必需语句,并且
必须出现在MODEL语句之前. 分类变量可以为数值型或字符型,分类变量的个数表示方差分析的因素个数.
◆MODEL
语句定义分析所用的效应模型,即方差分析的因变量
和效应变量. 在方差分析过程中,关键在于定义线性数学模型,常用的模型定义语句有:
MODEL y=a 单因素一元方差分析
MODEL y=a b 双因素无交互作用一元方差分析 MODEL y=a b a*b 双因素有交互作用一元方差分析 ◆ MEANS(格式:因素/选择项)语句用来计算该语句所列的每个效应所对应的因变量均值,其选项用于设定多重比较的方法以及方差齐性检验。 可以选择的检验方法有:
(1)T/LSD法:对means语句中出现的所有因素的各水平进行两两T检验,当每一水平的观测数相等时,T检验变成Fisher的最小显著差检验。
(2)BON法:对MEANS语句中出现的所有因素的各水平均值之差进行Bonferroni的T检验。
(3)TUKEY法:对MEANS语句中出现的所有因素的各水平均值进行TUKEY的学生化极差检验。
(4)DUNCAN法:对MEANS语句中出现的所有因素的各水平均值进行DUNCAN的极差检验。
(5)REGWF法:对MEANS语句中出现的所有因素的各水平均值进行多重极差检验。
(6)HOVTEST:进行方差齐性检验。
2、GLM 即广义线性模型(General Liner Model)过程,它使用最小二乘法对数据拟合广义线性模型. 该过程功能强大,可用于多种不同的统计分析中. GLM过程用于方差分析时,主要语句和使用格式与上述ANOVA过程类似,详见例3.
一、单因素方差分析
1.单因素等重复方差分析(ANOVA过程)
应用举例:
编写程序如下:
Data exam; /* Do trt=1 to 3; Do I=1 to 5; Input x@@; Output; End; End; Cards; 40 46 38 42 44 26 34 30 28 32 39 40 43 48 50
; Proc sort ; By trt ; Run;
Proc univariate normal ; Var x ;
建立数据集*/
/*3个水平(trt)分别为1、2、3*/ /*每个水平下5次重复*/ By trt ; Run;
Proc anova; /*调用方差分析过程*/ Class trt; /*定义处理为分类变量*/
Model x=trt; /*定义效应模型*/
Means trt/t hovtest bon ; /*要求计算每一水平下的均值,进行方差齐性检验,多重比较T检验和BON检验*/ Run;
Title '方差分析';
Run;
补充:‘试验错误率MEER’与‘比较错误率CER’。 例如:
有5种施肥方法,均值做两两比较有10种组合,如要控制10种比较的总错判率,就称为“试验错误率”。
如果想对10种比较中的每一种都控制比较错判机会,就称为“比较错误率”。
例
2 在4种不同的肥料处理(k1 ,k2,k3,k4)下测得土
壤的含氮量(nit),每个处理下重复5次,分析各处理间土壤含氮量的均值是否有显著差异(数据见程序中).
Dm \
Data new2;
Input str$ nit@@; /*str表示处理,是字符型变量*/ Cards; /*每一个数据前的符号ki (i=1,2,3,4)表明该数据属于哪一个处理*/
k1 19.4 k1 32.6 k1 27 k1 32 k1 33 k2 17.7 k2 24.8 k2 27.9 k2 25.2 k2 24.3 k3 17 k3 19.4 k3 9.1 k3 11.9 k3 15.8 k4 20 k4 21 k4 20.5 k4 18.8 k4 18.6 ; Proc print;
Title \单因素方差分析\ Proc anova; Class str; Model nit=str; Run;
程序运行结果:
单因素方差分析 Dependent Variable: NIT
Sum of Mean
Source DF Squares Square F Value Pr > F Model 3 545.4920000 181.8306667 11.05 0.0004 Error 16 263.1680000 16.4480000 Corrected Total 19 808.660000
R-Square C.V. Root MSE NIT Mean 0.674563 18.60373 4.055613 21.80000
以上的方差分析表列出F值为11.05,显著性水平达到0.0004,小于0.01,表明各处理间差异极显著.