方差分析 (Analysis of Variance)

2018-11-29 15:58

考虑以下情境:

一位研究者感兴趣影响儿童阅读能力的因素.研究者认为儿童的年龄和每次阅读时间可能是重要的影响因素。研究者设计了以下实验：选取三个年龄组的儿童: 3 岁, 8 岁, 和 14 岁.将每个年龄组的儿童随机分配到三个阅读条件. 组 1阅读时间为 5 分钟; 组 2为15 分钟; 对于组 3为30 分钟.两个星期之后测试了这些儿童的阅读能力。

3 岁

阅读时间 5 分钟 15 分钟 30 分钟

8 岁年龄

14 岁

这个研究有3 X 3 样本 (即 9个). 如何分析数据?

t-检验和 z-检验不能用于多于 2 组的数据. 处理这类数据需要用一种新的推论统计程序: 方差分析 (ANOVA).

ANOVA能够处理数据的类型：在上例中有两个自变量 (称为因素): 年龄和阅读时间. 两个都是组间 (独立样本) 变量. ANOVA 亦可用于分析包含组内 (重复测量) 因素的研究设计，同时包含组间和组内因素的混合设计(e.g. 假设上例中我们用同一些儿童作纵向研究。年龄是组内变量,阅读时间是组间变量).

在方差分析中,因素就是自变量. 包含一个自变量的研究称为单因素设计（single-factor design）. 具有多于一个自变量研究称为因素设计（factorial design）.

构成因素的个别处理条件称为因素的水平.

上述研究称为因素设计, 两个组间因素,每一个因素有 3 个水平 (称为 3 X 3 组间设计).

最基本的ANOVA.集中讨论单因素, 独立测量的研究设计. 1. ANOVA的逻辑 2. ANOVA的符号. 3. ANOVA的过程和例题 4. 事后检验 1. ANOVA的逻辑

与假设检验的逻辑是同样的, 只是具体内容有变化

step 1: 陈述 H0 (和H1 ??) ，确定标准: ? = ? step 2: ANOVA 检验总是单尾

step 3: 指出检验的df (有两个 df) step 4: 查表找出临界 F统计量

step 5: 对于样本，计算 F统计量

step 6: 比较 F统计量和临界 F统计量 step 7: 对于H0 作出结论

单因素, 独立测量研究设计的例子：

检验三个不同的学习方法的效应。将学生随机分配到3个处理组方法 A：让学生只读课本, 不去上课. 方法 B：上课,记笔记，不读课本.

方法 C：不读课本，不去上课, 只看别人的笔记 Step 1: 陈述假设和设定标准 (选择 ?)

H0: ?1 = ?2 = ?3

H1: 其中一个组与另一个（或更多）的组均值不同。备择假设可能的形式很多：

?1不等于 ?2 = ?3 ?1 = ?3 不等于 ?2 ?1 = ?2 不等于 ?3

?1 不等于 ?2 不等于 ?3

因此，只需给出虚无假设就够了

step 2: ANOVA 检验总是单尾. 因为不存在负的方差. F分布表也只有单侧的Alpha.（F分布图）

step 3: 找出检验的 df. 注意要考虑几个 df ( step 4: 从表找出临界 F统计量 1 分母的df 1 2 3 : : 2 分子的df 3 4 5 161 200 216 225 230 4052 4999 5403 5625 5764 18.51 19.00 19.16 19.25 19.30 98.49 99.00 99.17 99.25 99.30 10.13 9.55 9.28 9.12 9.01 34.12 30.92 29.46 28.71 28.24 : : : : : : : : : : 与 t分布表类似, F分布表也是描述一族 F分布.

需要用到两个df,用一个找出正确的行另一个找出正确的列.上面一行对应于 ? = 0.05, 下面一行对应于 ? = 0.01.

step 5: 计算样本的F统计量观测值

概念的水平的讨论：

ANOVA 非常类似两个独立样本的 t检验

tobs

= 得到的样本均值间差异

期望的机会差异

对于 ANOVA检验统计量 (称为 F比率) 类似

F = 样本均值间方差 (差异)

期望的机会(误差)方差(差异)

为什么用方差?

因为有多于两个组.

如何计算一个分数来描述差异间分布? 差异不能够分割, 但是方差能够分割。这就是ANOVA -方差分析名字的由来. 首先考虑方差的来源.

什么造成样本的不同(处理间变异) ？

处理/组效应 - 处理造成的差异个体差异效应 - 个体差异变异随机误差

每一个样本内部的变异 (处理内变异)

个体差异效应随机误差 F比率可以表达为:

F比率 =样本均值间的方差 (差异) 期望的机会 (误差)方差(差异)

F比率 =处理间方差处理内方差

F比率 = 处理效应 + 个体差异 + 随机误差个体差异 + 随机误差

注意: 有时分母叫做误差部分，其量度了由于机会造成的方差

如果 H0 为真,处理效应的值应该如何?

H0: ?1 = ?2 = ?3

如果没有差异, 效应方差 = 0 如果效应方差 = 0, F比率值?

F比率 = 0 + 个体差异 + 随机误差 = 1 = 1.0

个体差异 + 随机误差 1

如果 H0 为假， F比率应该大于 1.

step 6: 比较 F统计量的观测值与临界 F统计量

如果 F统计量的观测值 (Fobs) 在统计上显著地大于 1.0 则拒绝 H0

2. ANOVA的专用符号

K = 处理条件(或组)的数目

n = 每一个组的数目(如果它们相等) ni = 第i组的数目(如果它们不等)

N = ?ni = 总的样本容量 Ti = ?Xij

G = ?Xij =总的和

G-bar = G / N = 总的均值

SS2i = 每一个组的和方 = ?(Xij - i) 在上例中：

研究方法方法 A 方法 B 方法 C 只读课本只作笔记借别人笔记 0 4 1 1 3 2 3 6 2 1 3 0 0 4 0 T1 = 5 T2 = 20 T3 = 5 SS1 = 6 SS2 = 6 SS3 = 4 n1 = 5 n2 = 5 n3 = 5 1 = 1 2 = 4 3 = 1 ?X2

= 106

G = 30 = 总的和

N = 15 = 总的样本容量

G-bar = 30/15 = 2 = 总的均值 K = 3 =处理条件 (或组) 的数目

3. ANOVA的过程和例题

F比率 = 处理间方差

处理内方差

需要找出两个方差.

最基本公式s2 = SS/df. SS和 = ?X2 - (G2/N)

SS和 = 106 - (302/15) =106 - 60 = 46

需要将其分解为组间变异和组内变异. SS和 = SS组间 + SS组内

如何得到SS组内? 将每一个组SS相加

SSwithin = ?SS每一个处理内部 = ?SSi= 6 + 6 + 4 = 16 如何得到SS组间?

快捷的方法是: SS和- SS组内

? 若数据足够，不推荐用这种方法,因为:

? 无法检查计算错误

? 未涉及SS组间是如何组成.

直接计算 SS组间的两个公式 :定义公式和计算公式定义公式 SS间 = ?[ni( - G-bar)2] 计算公式 SS间 = ?(T2/ni) - G2/N = 5(1 - 2) 2 + 5(4 - 2) 2 + 5(1 - 2)2 = 52/5 + 202/5 + 52/5 - 302/15 = 5 + 20 + 5 = 30 = 5 + 80 + 5 - 60 = 30 SS和 = SS组间 + SS组内 = 16 + 30 = 46 s2 = SS/df.

已计算出SS, 找出 df:

共有两个 (或三个) 自由度, 一个组间方差df,一个组内方差df (以及一个总的 df). df和 = N - 1 df组内 = = N - K df组间= K - 1

df和 = df组内 + df组间

在例子中:

df组内 = 15 - 3 = 12 df组间= 3 - 1 = 2

df和 = 15 - 1 = 14, = 12 + 2

现在计算方差. 这里称为均方.

方差 = 均方 = MS = SS/df MS组间= SS组间/df组内

--> 上例中 = 30/2 = 15

注意: 有时 MS组间称为误差的均方.

MS组内 = MS误差 =误差的均方 = SS组内/df组内

--> 上例中 = 16/12 = 1.33

F比率 = 处理间方差 = MS组间处理内方差 MSw组间

上例中的F比率是: 15/1.33 = 11.28

将结果总结到方差分析表中：

来源

处理间处理内总的 SS 30 16 46 df 2 12 14 MS 15.0 1.33

F = 11.28 查 F表确定 Fcrit 对假设作出结论

df组间 = 分子的df

df组内 = 分母的df (误差)

--> 上例中:

df组内 = 12; df组间 = 2 1 分子的df 2 3 4 5 1 分母的df 161 200 216 225 230 5

共2页:

方差分析 (Analysis of Variance).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档