对于试验结果的影响和作用,就称为单因素方差分析。 (二)方差分析步骤
方差分析一方面确定因素的不同水平下均值之间的方差,作为所有试验数据所组成的全部总体方差的一个估计值;另一方面,再考虑同一水平下不同试验数据对于这一水平的均值的方差。由此,计算出全部数据的总体方差的第二个估计值;最后,比较上述两个估计值。如果这两个方差的估计值比较接近就说明因素的差异并不大,则接受零假设;否则接受备择假设。根据上述思路可以得到方差分析的方法和步骤。 1. 提出假设 H0:μ1=μ2=?=μk,即因素的不同水平对试验结果无显著影响。
H1:不是所有的μi都相等(i=1,2,?,k),即因素的不同水平对试验结果有显著影响。 2. 方差分解
下面先定义总离差平方和为各样本观察值与总均值的离差平方和。记 将总离差平方和分解为两部分: N = nk为样本观察值总数 记
表示同一样本组内,由于随机因素影响所产生的离差平方和,简称组内平方和。 记
表示不同的样本组之间,由于变异因素的不同水平影响所产生的离差平方和,简称为组间平方和。
对应于 SST,SSR 和 SSE 的自由度分别为 n-1,k-1,n-k。 由此可以得到: SST = SSR + SSE 当原假设 H0:μ1=μ2=?=μk 成立时,E(MSE)=E(MSR)
=σ2。此时MSR较小,F值也较小。反之H0不成立时,MSR较大,F值也较大。对于给定的显著性水平α查F分布表得到 F1- α(k-1,n-k)。 如果F > F1- α(k-1,n-k) ,则原假设不成立,即 k 个组的总体均值之间有显著的差异,就拒绝H0。若F ≤ F1- α(k-1,n-k) ,则原假设成立,即k个组的总体均值之间没有显著的差异,就接受H0。 3. F检验
将SSR和SSE分别除以自由度,即得各自的均方差: 组间均方差 MSR = SSR/(k-1) 组内均方差 MSE = SSE/(n-k) 检验统计量
由于方差分析表(见下表)概括了方差分析的统计量之间的关系,在进行方差分析时就可以直接按照方差分析表来逐行、逐列地计算出有关的统计量,最后得到检验量 F的值,并把这一 F 值与查表所得到的一定显著性水平下的 F检验的临界值进行比较,然后作出接受或拒绝原假设的结论。 4. 方差分析表
上述方差分析的方法可以用一张标准形式的表格来实现,称为方差分析表。方差分析表分为五列:第一列表示方差的来源;第二列表示方差的离差的平方和;第三列表示自由度;第四列表示均方差;第五列表示统计检验量 F。表格又分为三行:第一行是组间的方差SSR和均方差 MSR,表示因素的不同水平的影响所产生的方差,其值作为计算统计检验量 F 时的分子;第二行是组内方差 SSE 和均方差 MSE,表示随机误差所引起的方差,其值作为计算统计检验量 F 的分母;第三行是检验行,表示总的方差 SST。 单因素方差分析表
方差来离差平自由度 均方统计检源 组间差 组内差 总方差 方和 SSR SSE SST k-1 n-k n-1 差 MSR MSE 验量 F F = MSRMSE / (三)单因素方差分析函数 p = anova1(X)
p = anova1(Y,group)
p = anova1( Y,group,'displayopt' )
[p,table] = anova1( Y,group,'displayopt' )
[p,table,stats] = anova1( Y,group,'displayopt' )
单因素方差分析是比较两组和多组样本的均值,假设各组变量之间相互独立,方差相等,且服从正态分布。原假设是各组均值全部相等。 调用方式 输入参数
X 样本观察值,要求各列均为彼此独立的样本 Y 观察值向量
group 组别,Y中每个元素所属的类别 displayopt 取值为“off”与“on”,分别表示掩藏与显示方
差分析表图和盒图。盒图上下线为25%和75% 分位数,中间线为中位数。 输出参数
p 各列均值相等的概率 table 方差分析表 stats 统计量 ST达声 恒瑞医药 日 期 价 格 收益率 日 期 价 格 收益率 2006 – 8 2.48 - 14 7 2006 – 8 - 13.191 14 2006 – 8 2.41 - 0.030 96 2006 – 8 - 13.267 - 15 15 0.005 762 2006 – 8 – 16 2.5 0.373 44 2006 – 8 13.066 - 0.015 – 16 15 2006 – 8 2.48 – 17 - 0.008 2006 – 8 13.167 0.007 73 – 17 0.002 202 0 2006 – 8 2.43 - 0.020 16 2006 – 8 13.196 – 18 – 18 2006 – 8 2.41 -0.008 23 2006 – 8 13.196 – 21 2006 – 8 – 22 2006 – 8 – 23 2.4 0 – 21 2.4 - 0.004 15 2006 – 8 13.309 – 22 0.008 563 2006 – 8 14.185 0.065 82 – 23 2006 – 8 2.37 - 0.012 5 2006– 8 – 14.143 - 0.002 – 24 24 96 0.000 424 0.009 612 0 2006 – 8 2.42 0.021 097 2006 – 8 14.149 – 25 – 25 2006 – 8 2.48 0.024 793 2006 – 8 14.285 – 28 – 28 2006 – 8 2.49 0.004 032 2006 – 8 14.285 – 29 – 29
例5 恒瑞医药(600276)和ST达声(000007)的股价如下表所列。 恒瑞医药和ST达声价格收益表
>>group={'stds','stds','stds','stds','stds','stds','stds','stds','stds','stds','stds','hryy','hryy','hryy','hryy','hryy','hryy','hryy','hryy','hryy','hryy','hryy'} 下面检验二者的收益率是否相等
>> rate = [ - 0.03096 0.037344 -0.008 - 0.02016 - 0.00823 - 0.00415...
0 - 0.0125 0.021097 0.024793 0.004032 0.005762 ...
- 0.01515 0.00773 0.002202 0 0.008563 0.06582 ...
- 0.00296 0.000424 0.009612 0 ] >> [p,table,stat] = anova1(rate,group,'on') p =
0.2412 table =
'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'
'Groups' [8.7401e-004] [ 1] [8.7401e-004] [1.4976] [0.2412]
'Error' [ 0.0082] [14] [5.8360e-004] [] []
'Total' [ 0.0090] [15] [] [] [] stat =
gnames: {2x1 cell} n: [11 5] source: 'anova1'
means: [3.4636e-004 0.0163] df: 14 s: 0.0242
从结果可知p=0. 2412>0.05,所以不能拒绝原假设,可以认为二者在此期间的收益率相等。其原因可能是以日收益率为样本,间隔时间太短,不足以反映股票之间的差别。 ST达声和恒瑞医药方差分析表如右上图所示 从图中可以看出方差分析表。 第一列显示数据源(source)。
第二列显示各类数据的平方和(SS)。 第三列显示各类数据相应的自由度(df)。 第四列显示均方差MS。
第五列显示Friendman检验的F统计量(F)。 第六列显示F统计量对应的概率值。
ST达声和恒瑞医药收益率盒图如右下图所示 (四)双因素方差分析
设因素 A 有a 个水平,因素 B 有 b 个水平,试验的重复次数记作 n。记 Xijk为在因素 A 的第 i 个水平、因素 B 的第 j 个水平下进行第 k 次试验时的观察值(i = 1,2,?,a; j =
1,2,?,b; k = 1,2,?,n)。记
前面所研究的是试验结果仅受一个因素影响的情形。要求检验的是当因素取两个不同水平时对结果所产生的影响是否显著。但在实践中,某种试验结果往往受到两个或两个以上因素的影响。双因素方差分析的基本思想与单因素方差分析基本相同。首先分别计算出总变差、各个因素的变差以及随机误差的变差;其次根据各变差相应的自由度求出均方差;最后计算出 F 值并作 F 检验。
为在因素 A 的第 i 个水平、因素 B 的第 j 个水平下进行各次重复试验的所有观察值的总和。
(i = 1,2,?,a; j = 1,2,?,b) 为在因素A的第i个水平、因素B的第j个水平下进行各次重复试验的所有观察值的平均值。 式中:N=abn 是所有观测值的总数, 是所有观察值的平均值。 对于因素 A:H0:因素 A 的各个水平的影响无显著差异。
H1:因素 A 的各个水平的影响有显著差异。 对于因素 B:H0:因素 B 的各个水平的影响无显著差异。
H1:因素B 的各个水平的影响有显著差异。 对于因素 AB 的交互作用:
H0:因素 AB 的各个水平的影响无显著差异。 H1:因素 AB 的各个水平的影响有显著差异。 利用上面所引入的符号,可以得到有交互作用的两因素方差分析的步骤如下: 建立假设
由于两因素有交互影响,因此除了分别检验两因素单独对试验结果的影响外,还必须检验两因素交互作用的影响是否显著。 2. 离差平方和的分解
总离差平方和 SST 的自由度为N – 1 。
有交互作用的两因素方差分析的总离差平方和可以分解为 4 项: 表示因素间交互作用的离差平方和,自由度为
(N-1)-(a-1)-(b-1)-(n-1)ab=(a-1)(b-1) 分别记
为因素 A 的离差平方和,自由度为 a – 1 。 为因素 B 的离差平方和,自由度为 b – 1 。 表示随机误差的离差平方和,自由度为
N-ab =abn-ab=ab(n-1)。 方差来源 离差平方和 自由度 因素A 因素B SSA SSB a-1 b-1 均方差 统计检验量F MSA=SSA/(a-1) MSB=SSB/(b-1) 交互作用 SSAB 误差E 总方差 SSE SST (a-1)(b-1) MSAB=SSAB/ (a-1)(b-1) n-a b n-1 MSE=SSE/(N-ab)
有交互影响的双因素方差分析表 编制方差分析表,进行 F 检验