全国质量专业技术人员职业资格考试考前培训
质量专业理论与实务
(中级)
第二章
常用统计技术
§1 方差分析
培训教师:章 军
(辽宁大学)
2013
1
在啃完第一章这块“硬骨头”之后,从第二章开始,我们会明显感到难度系数急剧下降。在系统地学习了第一章内容后,随着后面内容的展开,我们的心态应该是呈现信心递增的趋势。
这一章整个三节的内容,都与第一章有密切联系,而且有一条贯穿始终的主线,就是方差分析。这一章与后几章相比,还有一个突出特点,就是公式较多(当然,无论在公式数量上还是在解题难度上,学起来都比第一章要轻松得多)。
从总体上说,第二章主要介绍3个内容,也就是质量管理中常用的3种统计技术:一是方差分析,它通过对质量特性数据差异的分析与比较,寻找出影响质量的重要因子;二是回归分析,它告诉我们如何建立质量特性与其影响因子之间的定量关系;三是实验设计,它展现在我们面前的是如何合理安排试验,通过对试验数据进行分析,以确定对产品质量有显著影响的因子,从而寻找最优因子组合的一种统计技术。这一节先介绍方差分析。 其实,作为一种常用统计技术,方差分析是用来解决在实际中大量存在的多个总体均值比较问题的。请看下面一个例子。
【例2.1-1】 现有甲、乙、丙三个工厂生产同一种零件,为了解不同工厂的零件的强度有无明显的差异,现分别从每一个工厂随机抽取4个零件测定其强度,数据如下:
工厂 甲 乙 丙
零件强度
103 113 82
101 107 92
98 108 84
110 116 86
试问这三个工厂的零件的平均强度是否相同?
这一问题,实际上是需要比较3个总体均值。如果每一个总体都服从正态分布,而且各个总体的方差相等,那么比较各个总体均值是否一致的问题就可以用方差分析方法来解决。
1.1 几个概念
1.1.1 试验
☆从一个总体中随机抽取一个样本,对某质量特性指标的考察称为试验(test)。试验中所考察的指标是一个随机变量,通常用Y表示。比如在【例2.1-1】中,从每一个工厂随机抽取4个零件测定其强度就是一个试验,试验中考察的指标是零件的强度。
由于不同工厂的零件强度不同,因此可以将工厂看成影响指标的一个因素,不同的工厂便是这个因素不同的状态。
1.1.2 因子 [掌握]
★在试验中,那些会改变状态的影响指标的因素称为因子(factor),有时也称因素,常用大写字母A,B,C等表示。如在【例2.1-1】中,工厂就是一个因子,用字母A表示。 【注】若在一个试验中所考察的因子只有一个,则是单因子试验问题;若在一个试验中所考察的因子有两个(甚至更多个),则是双因子试验问题(或多因子试验问题)。本节先讨论单因子试验问题。
1.1.3 水平 [掌握] ★因素所处的状态称为因子的水平(level),用因子的字母加下标来表示,比如因子A的水
平用A1,A2,?等等来表示。在上例中,工厂这个因子A有3个水平,分别记为A1,A2,A3。
2
1.1.4 方差分析
1.1.4.1 方差分析的定义 [熟悉] ★假定因子A有r个水平,在每个水平下指标的全体都构成一个总体,因此共有r个总体。假定第i个总体指标Yi~N??,??,从该总体获得一个样本量为m的样本为yi2i1,i2y,?,
,并假定各样本是相互独立的。数据分析主yim,其观测值即观测到的数据(i?1,2,?,r)
要是要检验如下假设的一对:H0:?1??2????r,H1:?1,?2,?,?r不全相等。检验这一对假设的统计技术便是方差分析(analysis of variance)。当H0不真时,表示不同水平下的指标(即不同总体)的均值有显著差异,此时称因子A显著(significantly),否则称因
子A不显著(non-significantly)。
1.1.4.2 方差分析的基本假定 [掌握] ▲方差分析有如下3条基本假定:
①正态分布,即在水平Ai下,指标Yi服从正态分布N②方差相等,即在不同水平下,方差?是相等的; ③数据独立,即各个数据yij是相互独立的。
由此看来,方差分析是在相同方差假定下检验多个正态总体均值是否相等(即在上述基本假定下对假设H0与H1进行检验)的一种统计分析方法。
2
??,??;
i21.2 单因子方差分析 [掌握]
1.2.1 常用记号
设在一个试验中只考察一个因子A,它有r个水平,在每一水平Ai下进行m次重复试验。
水平 试验数据 数据和 数据均值 A1 A2 … y11,y12,?,y1m T1 T2 … y1 y2 … y21,y22,?,y2m … Ar yr1,yr2,?,yrm Tr yr 在上表中,yi1,yi2,?,yim(i?1,2,?,r)表示各个重复试验结果,其中“试验数据”
3
一栏第i行第j列的数据yij表示因子A第i个水平下的第j次重复试验结果,而Ti与yi则分别表示第i个水平下的数据和与数据均值(yi?Tim)。这里共有n?r?m个数据,这n个数据当然不全相等,其总和T?
?Tj?1ri,则其总平均y?Tn。
1.2.2 平方和及其分解式
①总离差平方和(简称总平方和):ST????yi?1j?1rmij?y? 2ST表示上述n个数据的差异。
②组间平方和(也称因子A的平方和):SA????yi?1j?1rmi?y???m?yi?y? 22i?1rSA表示由于因子A的不同水平下(各个总体间)不同指标均值所导致的数据差异。
③组内平方和(也称误差平方和):Se????yi?1j?1rmij?yi? 2Se表示由于随机误差引起的同一水平下(同一总体内)指标间的数据差异。
▲可以证明如下平方和分解式:ST?SA?Se。
【注】①教材上所说的“平方和”都是“离差平方和”,所以SA与Se的全称分别是“组间离差平方和”与“组内离差平方和”, 不难看出,总离差等于组间离差与组内离差之和,即?yij?y???yi?y???yij?yi?,所以虽然没有?yij?y???yi?y???yij?yi?,但是却
222有
???yij?y?i?1j?1rm2,即总????yi?y?????yij?yi?(注意3个括号之间的关系)
22i?1j?1i?1j?1rmrm离差平方和等于组间离差平方和与组内离差平方和之和。这样对理解和记忆上面的公式是不是会感觉很轻松很方便呢?!②这里补充一个数学知识:我们知道,
?ai?1ni。若每一项都是同一个数a,则前一式为?a1?a2???an(即n个数相加)
n?a???a,即?a?na,说明当和式通项没有下标为一常数a时,其和等于?a?a???????i?1n个i?1n这个常数a与求和上限n的乘积(即使和式通项有下标,但其下标与求和变项i无关,则上
4
述结论仍成立,比如
?ai?1nj。有了这个知识,我们回过头再来看上面的因子平方和?naj)
m的公式SA?r???y?y?ii?1j?1mi2rm2,通项yi?y与变项j无关,故
??y?y??m?y?y?,从而
iij?1有SA????y?y???m?y?y?ii?1j?1i?1r2。我们这样从数学计算角度讲这个公式很容易接
受,所以并没有引用教材上的说法“这里乘以m是因为在每一水平下进行了m次试验”。其实这样介绍这个公式还在于ST与Se的定义式都是两个和号(ST?rmrm2,??y?yij??i?1j?1rm,将SA的定义式写成SA????yi?y?也便于与它们进行比较。 Se????yij?yi?)
22i?1j?1i?1j?1
1.2.3 平方和自由度及其分解式
①ST的自由度(简称总自由度,记为fT):fT?n?1;
②SA的自由度(简称组间自由度或因子自由度,记为fA):fA?r?1;
③Se的自由度(简称组内自由度或误差自由度,记为fe):fe?r?m?1??n?r。 ▲可以证明如下平方和自由度分解式:fT?fA?fe。
1.2.4 均方与F比
平方和与相应的自由度之比,即按自由度平均的平方和称为均方(mean square),记为MS。
SA的均方为MSA?SeSA,Se的均方为MSe?。将这二者之比称为F比(F ratio),即
fefAF?MSA。 MSe▲对给定的显著性水平?,若F>F1???fA,fe?,说明MSA相对于MSe大得多,这时应认为因子A显著;而若F?F1???fA,fe?,则说明MSA与MSe相差不大,应认为因子A不显著。
【注】①当fe是fA的整数倍时,可用公式F?SAfe来计算F比。②注意,离差平方?SefA和与其自由度之比(即均方)相当于“样本方差”,所以两个均方之比(即F比)相当于两
5