『 6 』
第8章 方差分析
表8-2 One-Sample Kolmogorov-Smirnov Test
年龄范围
N
每小时薪水 468
18-30 Kolmogorov-Smirnov Z 1.045
Asymp. Sig. (2-tailed) N
.225 1582
31-45 Kolmogorov-Smirnov Z .932
Asymp. Sig. (2-tailed) N
.350 .861
46-65 Kolmogorov-Smirnov Z .771
Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data.
.592
从表8-2的结果来看,三个年龄段的总体样本数分别是468、1582和861,有89个无收入数据的缺失样本。三个年龄段的检验结果均不显著,说明三个年龄段的总体分布和正态分布没有显著差异,满足第一个条件。
关于三个总体方差齐性的条件,我们作出三个总体的样本方差统计量观测值,从表8-1看出,无论是标准差还是方差,三个总体都是非常接近的,可以认为满足第三个条件,因此可以进行方差分析。
下面我们具体来讲单因素方差分析的操作。首先解除文件拆分,再进行如下操作: Step1:选择【Analysis】菜单→【Compare Means】菜单→【One-way ANOVA】菜单
ANOVA是Analysis of Variance的缩写,代表方差分析。在图8-1的单因素方差分析主对话框中,左边是SPSS数据集文件中的所有变量列表,中间是Dependent List是观测变量列表,下面Factor框中是控制因素列表,由于是单因素方差分析,因此控制因素只能选择一个变量,而观测变量可以是多个,SPSS将会按照同一个控制因素分别对这些观测变量进行方差分析。右边有三个按钮是用于方差分析进一步分析的,我们将在下一小节讲到它们。
Step2:选择观测变量和控制因素
将观测变量“每小时薪水(hourwage)”选入观测变量框Dependent List,将变量“年龄范围(agerange)”选入控制因素变量框Factor,设置完成后点击
完成操作。
第二篇 SPSS与统计基础统计分析
观测变量 控制因素
图8-1 单因素方差分析主对话框
8.2.3 单因素方差分析的进一步分析
利用以上的分析,我们就可以得到三个总体均值是否显著差异的结果,也就知道了年龄对工资是否有显著影响。如果方差分析检验结果是不显著的,说明各水平上观测变量均值没有显著差异,没有比较各水平的必要,自然方差分析到此终止;但是,如果方差分析检验结果是显著的,即各年龄段总体工资的均值是不同的,那么我们就还想知道更多的结论,例如:哪个年龄段平均工资最高,哪个年龄段平均工资最低,两个年龄段的平均工资差异是多少,这个差异在统计上是否是显著的等等结论,这个就需要利用方差分析的进一步分析功能。
方差分析的进一步分析主要是回答这样一些问题:
第一、观测变量在控制变量各水平上,即各总体上,其平均值差异是多少,这个差异是否统计显著; 第二、观测变量在控制变量各水平上,其方差是否相等,即方差齐性是否满足; 第三、其他的一些检验问题,诸如先验对比检验,趋势检验等。
这三个问题SPSS分别用三个按钮来提供相应的功能,第一个按钮提供先验对比检验、趋势检验等功能,解决第三个问题;第二个按钮提供多重比较检验功能,解决第一个问题;第三个按钮
提供方差齐性检验功能,解决第二个问题。下面我们分别对这三个按钮的方法进行说明。
1. 多重比较检验
多重比较检验的原假设是:观测变量在指定两水平上均值没有显著差异。接下来就是选择统计量,SPSS给我们提供了非常丰富的多重比较检验统计量,我们仅介绍几个重要的统计量。
LSD方法:采用最小显著性差异法(Least Significant Difference)。其构造如下面的公式,其特点是检验敏感性高,指定的两水平i和j只要存在一定程度的差异就可以被检验出来,缺点是因为敏感,犯第一类错误概率较大。统计量式中MSE表示平均组内方差,统计量服从自由度为n-k的t分布。
t?(Xi?Xj)?(?i??j)MSE(11?)ninj
Bonferroni方法:和LSD方法基本相同,不同之处是Bonferroni方法对犯第一类错误的概率进行了控制,将每次检验的显著水平除以两两检验的总次数N,从而控制了犯第一类错误的概率。
Tukey方法:Tukey方法采用q统计量,其构造为:
t?(Xi?Xj)?(?i??j)MSE/r
『 8 』
第8章 方差分析
式中r为各水平下样本个数。可见Tukey方法要求各水平下样本个数相等,这点要求比LSD方法苛刻,例如本例中就不能采用Tukey方法。Tukey方法的q统计量服从自由度为k和n-k的q分布。 S-N-K方法:S-N-K(Student Newman-Keuls)方法是一种高效划分相似子集的方法。该方法也要求各水平样本数相等,统计量为:
dlrdlr?0.5?1.2loglMSEZ?,当l?3时,Z?MSE,当l?3时 3[0.25?1/(n?k)]3[0.25?1/(n?k)]Z统计量近似服从正态分布。
综合各种方法的条件,本例中只适合用LSD方法和Bonferroni方法。 2. 方差齐性检验
SPSS对于方差齐性检验采用的是方差同质性检验(homogeneity of variance)。其具体检验过程和第5章两独立样本t检验中的方差齐性检验相同,此处就不再赘述了。
3. 先验对比检验和趋势检验
先验对比检验是检验两组水平的线性组合均值是否有显著差异,例如,本例中有3个水平的均值
?1,?2,?3,可以检验?1和1/2(?2??3)是否有显著差异,此时需要指定系数
c1?1,c2??0.5,c3??0.5,注意所有系数求和必须为0,这种先指定系数,再对线性组合进行检验的检
验方法就称为先验对比检验。
趋势检验:当控制因素是顺序尺度变量时,随着控制变量的增大,趋势检验能检验观测变量的总体
变化趋势是如何的,是线性变化,还是二次或三次变化。趋势检验有助于我们把握观测变量在各水平间的变化规律。
下面我们来看单因素方差分析进一步分析的具体操作: 1. 多重比较检验操作
在图8-1的单因素方差分析主对话框中,点击按钮据本例的特点选择LSD和Bonferroni方法,点击
2. 方差齐性检验操作 在图8-1主对话框中,点击3. 先验对比检验和趋势检验操作
在图8-1主对话框中,点击按钮进入图8-4子对话框,勾选Polynomial复选框,在Degree下拉菜单中选择Quadratic,表示进行二次趋势检验,在下面的Cofficients框中依次输入先验对比检验系数1、-0.5、-0.5,点击
按钮回到主对话框。
按钮,进入如图8-3的对话框,在对话框Statistics复选框组中
按钮回到主对话框。
勾选Homogeneity of variance test复选框,点击
进入如图8-2的对话框,在对话框中根
按钮回到主对话框。
第二篇 SPSS与统计基础统计分析
图8-2 Post Hoc子对话框 图8-3 Option子对话框 图8-4 Contrasts子对话框
所有操作完成后,设置完成后点击
完成操作。
8.2.4 单因素方差分析的结果分析
下面我们先看单因素方差分析以及进一步分析的结果: Oneway
表8-3每小时薪水Test of Homogeneity of Variances
Levene Statistic df1 .593 2 df2 2908 Sig. .553
从表8-3我们可以看出观测变量在控制变量各水平上方差统计量观测值为0.593,自由度为2和2908,对应的P值为0.553,显然P值远远大于显著水平0.05,不能拒绝原假设,认为观测变量在各水平方差齐性得到满足,这也从统计显著性的角度再次证明了我们在表8-1看到的各水平样本方差观测值差异较小,从而各水平总体方差相等的结论,进一步证明了数据是满足方差分析第二个条件的。
下面是单因素方差分析的结果,结果主要在表8-5中,我们看到组间方差由于考察总体不同的变化趋势出现不同的值,对于方差分析,其组间方差1017.69,组内方差为45914.297,平均组间方差和平均组内方差分别为508.845和15.668,F统计量观测值为32.44,对应的概率P值接近0,显然应该拒绝原假设,认为观测变量在控制变量各水平上均值显著差异,也就是说年龄会影响工资。另外根据趋势检验的结果,线性趋势是显著的,但是二次趋势不显著。
『 10 』 第8章 方差分析
表8-5每小时薪水ANOVA
(Combined)
Squares 1017.690
df 2 1 1 1 1 1 2908 2910 Mean Square 508.845 1002.370 1007.272 10.419 10.419 10.419 15.686
F 32.440 63.903 64.216 .664 .664 .664
Sig. .000 .000 .000 .415 .415 .415
Unweighted
Linear
Between Groups
Quadratic Term
Within Groups Total Term
Weighted Deviation Unweighted Weighted
1002.370 1007.272 10.419 10.419 10.419 45614.257 46631.948
表8-6 每小时薪水Multiple Comparisons
(I) 年龄范围 (J) 年龄范围 Difference (I-J)
31-45
18-30
46-65 18-30
LSD
31-45
46-65 18-30
46-65
31-45 31-45
18-30
46-65 18-30
Bonferroni
31-45
46-65 18-30
46-65
31-45
-1.03231 -1.81824 1.03231 -.78593 1.81824 .78593 -1.03231 -1.81824 1.03231 -.78593 1.81824 .78593
************
95% Confidence Interval
Std. Error .20840 .22745 .20840 .16773 .22745 16773 .20840 .22745 .20840 .16773 .22745 .16773
.000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000
Sig.
wer Bound -1.4409 -2.2642 .6237 -1.1148
23 .4570 -1.5315 -2.3631 .5331 -1.1877 1.2734 .3842
Bound -.6237 -1.3723 1.4409 -.4570 2.2642 1.1148 -.5331 -1.2734 1.5315 -.3842 2.3631 1.1877
*. The mean difference is significant at the 0.05 level.
表8-6给出多重比较检验的结果,从结果上看,无论是LSD方法还是Bonferroni方法,各年龄段的差异都是显著的(检验的P值都接近0)。显然46-60岁年龄段的护士平均工资最高,比31-45岁年龄段护士平均工资高0.7853,比18-30岁年龄段护士平均工资高1.81824;31-45岁年龄段护士工资其次,比18-30岁年龄段护士平均工资高1.03231;相比来说,18-30岁年龄段护士平均工资最低。