如:
PROC ANOVA;
CLASS A B C;
MOOEL Y=A B(A)C(A)B*C(A);
四、输出说明
(1)CLASS LEVEL INFORMATION分类水平信息。其中包括: CLASS CLASS语句中列出的效应名。 LEVELS 因素效应的水平数。
VALUES 因素效应中各水平的值或标记。 (2)SOURCE变异来源。
(3)SUM OF SOUARES(SS)平方和。 (4)MEAN SQUARE(MS)均方。
(5)F VALUE F值。其中MODEL(模型)的下值为MODEL(模型)的均方除以ERROR(误差)的均方。用于检验模型中所有效应均为零的假设,以便说明模型的重要程度。
(6)Pr>F显著水平。
(7)MODEL模型。它的平方和等于各因素效应的平方和之和,其均方等于它的平方和除以自由度。
(8)ERROR误差。
(9)CORRECTED TOTAL校正总变异。
(10)R-SQUANE R2,其值为模型的平方和除以校正总平方和。一般来说,R2值越大,模型拟合数据越好。 (11)C.V变异系数。样本的变异系数为该样本的标准差除以均值,表示单位量的变异。
(12)ROOT MSE 误差均方根,是观测变量的标准差的估计值。 (13)T TEST FOR VARIABLE 各处理平均数的多重比较T检验,凡有一个相同标记字母的即为差异不显著,凡具有不同标记字母的即为差异显著。
§7.3 GLM(General Linear Model)过程
GLM是General Linear Model(一般线性模型)的缩写,用于非均衡数据方差分析。在SAS/STAT中,GLM过程的分析功能最多,回归分析、方差分析、偏相关分析、协方差分析、多元方差分析等比较复杂的分析过程均可采用GLM过程。这里只介绍GLM过程在方差分析中的应用。
前面介绍的ANOVA过程只能用于均衡设计资料的方差分析,当不均衡时,只能用采用GLM过程进行分析。
7-6
一、过程格式
PROC GLM 选择项;
CLASS 变量表;
MODEL 依变量=效应表/选择项; MEANS 效应表/选择项; FREQ 变量名;
TEST H=效果名称 E=效果名称;
MANOVA H=效果名称 E=效果名称 M=变量的转换式
PREFIX=新变量的名称代号
MNAMES=新变量名表 /选择项;
RANDOM 效应表/选择项;
CONTRAST “对比说明” 各组效应系数/选择项;
REPEATED 重复变量的名称 组名 变量转换/选择项; BY 变量表; ID 变量表;
二、语句说明
CLASS语句和MODEL语句是必需的,且CLASS语必须出现在MODEL语句之前。
1.PROC GLM语句选择项
DATA=数据集 指定用来分析的数据集名,若缺省,则使用最新建立的数据集。 ORDER=FREQ|DATA|INTERNAL|FORMATTED 指定某一变量下各类别的输出次序。FREQ按递减计数次序排列;DATA按首先出现在输入数据集中的顺序放置;INTERNAL按值的内部表示排列;FORMATTED按外部的格式排列。缺省值为ORDER=INTERNAL。
MANOVA 要求PROC ANOVA语句将含一个或一个以上依变量缺失值的观察值剔除。当使用交互式进行方差分析时,最好指定此选择项。
OUTSTAT=数据集 输出结果中含离差平方和(SS)、F值以及各试验效果的显著程度。
NOPRINT 要求PROC GLM抑制分析结果在报表上的输出。 2.RANDOM语句
用于指定模型中的随机效应。在MODEL语句后可多次应用RANDOM语句,若缺省则GLM过程将MODEL语句中的所有的效应为固定效应。其选择项有两个:
Q 要求输出固定效应的二次式函数值。
TEST 要求对RANDOM语句中所指定的各项随机效应执行适当的F测验,并且F测验的分母完全根据各效应的期望均方而定。需要注意的是:若某两个主效应被
7-7
RANDOM指定为随机效应,其交互项并没有被相应指定为随机效应,需要特别指定。 3.CONTRAST语句
用于对比测验。比较式的名字必须放在引号内,其长度最多为20个字符,命名方式可随意,但在其中不能出现“;”。各组效应系数前必须注明所要比较的效应,这些效应必须是MODEL语句中出现过的,这些系数的总和必须为0,而且只能是整数或小数,各系数间以空格隔开。该语句的选择项有:
E规定输出线性函数的向量;
E=效应名称 指定以E的效应为CONTRAST中F测验的分母,系统默认值是误差的均方(MS Error);
ETYPE=1|2|3|4 用于指定计算E=效应名称中效应的离差均方的类型。 4.PROC GLM过程中其他语句
CLASS语句、MODEL语句、MEANS语句等参见PROC ANOVA过程。
三、ANOVA过程和GLM过程中常用的数学模型
在使用ANOVA和GLM过程进行方差分析时,关键在于定义线性数学模型。同一试验资料选用不同的数学模型,结果将不同。因而需要依据试验设计选定正确的线性数学模型。
①模型定义语句的一般格式是:依变量=线性模型效应。线性模型效应主要有三类:
主效应 直接写出效应变量,如:a。
交互效应 以一个或多个以“*”号连接的变量表表示,如:a*b*c。 嵌套效应 假定自变量b嵌套在主效应a中,则写作:b(a)。 ②常用的模型定义语句有: MODEL y=a; 单因素模型。
MODEL y= a b; 两因素主效模型。
MODEL y=a b a*b; 两因素主效带互作的模型。
MODEL y=a b(a); 嵌套(NESTED)模型,用于系统分组资料。
③在模型定义中,可以用“|”和“@n”简化模型效应的表达。“|”等价于将模型效应从左到右展开,“@n”表示互作效应和嵌套效应作用的最高元次。
常用模型简化表示法及其等价形式为: a|b 等价于a b a*b
a|b|c 等价于a b a*b c a*c b*c a*b*c a|b|c@2 等价于a b a*b c a*c b*c a|c(b) 等价于a c(b) a*c(b)
a(b)|c(b) 等价于a(b) c(b) a*c(b) a|b(a)|c 等价于a b(a) c a*c b(a)*c a|b(a)|c@2 等价于a b(a) c a*c a(b)|b(d e) 等价于a(b) b(d e)
7-8
四、使用说明
(1)对平衡资料的方差分析可用ANOVA过程,也可用GLM过程。但前者效率更高。对于非平衡资料的方差分析只能用GLM过程。
(2)设有如下数据(因素A有2个水平,因素B有2个水平):
因素 水平 p P1 P2 N N1 10 18 9 N2 16 16 24 28 例7.3 程序示例如下:
data new;
input n$ p$ y@@; cards;
n1 p1 10 n1 p1 18 n2 p1 16 n2 p1 16 n1 p2 9 n1 p2 . n2 p2 24 n2 p2 28 proc glm; class n p;
model y=n p n*p; run;
上述程序中的数据也可用下面的方法读入: 例7.4 data new;
do p=1 to 2; do n=1 to 2; input y@@; output; end; end; cards;
10 18 16 16 9 . 24 28 proc glm; class n p;
model y=n p n*p; run;
7-9
§7.4 单向分组资料的方差分析
观察值仅按一个方向分组,同组各供试单位受相同处理,不同组受不同处理,也称完全随机设计实验。
§7.4.1 组内观察值数目相等的单向分组资料的方差分析
例7.5 研究6种氮肥施用法(K=6)对小麦的效应,每种施肥法种5盆小麦(n=5),完全随机设计,最后测定它们的含氮量(mg),其结果见表10.1,试作方差分析。
表10.1 6种施肥法小麦植株的含氮量(mg)
1 12.9 12.3 12.2 12.5 12.7
2 14.0 13.8 13.8 13.6 13.6
3 12.6 3.2 13.4 13.4 13.0
4 10.5 10.8 10.7 10.8 10.5
5 14.6 14.6 14.4 14.4 14.4
6 14.0 13.3 13.7 13.5 13.7
由于组内观测值数目相等,故采用ANOVA过程分析。程序如下: 1.程序及说明
/*数据来源:南京农业大学,田间试验和统计方法,P102*/
DATA new;
DO i=1 TO 5; DO trt=1 TO 6; INPUT y@@; OUTPUT; END; END;
DROP i; /*删除临时变量I */ CARDS;
12.9 14.0 12.6 10.5 14.6 14.0 12.3 13.8 13.2 10.8 14.6 13.3 12.2 13.8 13.4 10.7 14.4 13.7 12.5 13.6 13.4 10.8 14.4 13.5 12.7 13.6 13.0 10.5 14.4 13.7
PROC ANOVA; /*调用ANOVA过程作方差分析*/ CLASS trt; /*规定以trt为分类变量 */ MODEL y=trt;
MEANS trt/DUNCAN; /*选用新复极差法作多重比较 */ RUN;
7-10