第八章 假设检验
第一节 假设检验的基本概念
总体参数既可以用一个数来估计(点估计),又可以用一个区间来估计(区间估计).然而实际中经常遇到的问题是面对关于参数的两个矛盾的命题,如何抉择?如,某一天要检查一个工厂的产品次品率是否低于5%,某药品的疗效是否在90%以上等等.这些问题就需要我们首先给出一个假设,然后根据已知的数据进行推证,从而做出没有充分理由拒绝原来的假设或有充分证据拒绝原来的假设的决定.这是另一类重要的统计推断问题——假设检验(Test of hypothesis).
一 假设检验的提法及基本思想
引例 根据长期的经验和资料的分析,某砖瓦厂所生产的砖的“抗断强度”服从正态分布,方差?2=1.21.今从该厂生产的一批砖中,随机抽取6块,测得抗断强度(㎏/cm2)如下:
32.56 29.66 31.64 30.00 31.87 31.03
问这一批砖的平均抗断强度可否认为是32.50㎏/cm2?
我们关心砖的平均抗断强度是否为32.50㎏/cm2.回答有两种可能:不能拒绝砖的平均抗断强度? =32.5, 或拒绝? =32.5.为此,我们提出这样的假设——H0:可以认为砖的平均抗断强度是32.50㎏/cm2(?=32.5).与之对立的假设——H1:不能认为砖的平均抗断强度是32.50㎏/cm2(??32.5).我们的任务是利用所获得的样本x1,???,x6, 去判断命题H0是否成立.
上面的例子是要根据实际问题,提出一个假设,然后以观测数据(即样本)为依据,采取一定的方法,去推证提出的假设是否成立.用统计学的语言描述如下:
? 有一个总体X.即所考察的那一大批砖的抗断强度, 并X ~ N(?, 1.21).
? 根据需要, 提出一个命题(假设)H0.H0:砖的平均抗断强度可以认为32.50㎏/cm2
(?=32.5).这个命题的正确与否完全取决于总体的未知参数?的值. ? 从总体中抽取样本.即抽出的那6块砖所测得的抗断强度x1,x2,???,x6. ? 利用样本去判断(检验)命题H0是否成立.
这就是假设检验问题.假设检验(Hypothesis testing)指的是依据样本信息判断或检验关于总体的某个假设是否正确.
我们的做法是,先假设H0是正确的,在此假设下,构造一个小概率事件.经过一次试验(样本)后,若此小概率事件发生了,则拒绝(Reject)H0,否则不拒绝(Fail to reject)或“接受”H0.理论依据是小概率事件原理(或实际推断原理).
二 假设检验的基本概念
1 原假设和备择假设
原假设(Null hypothesis):根据需要而设立的假设.原假设是作为检验前提的假设. 备择假设(Alternative hypothesis):当原假设被拒绝后而接受的假设.
在假设检验问题中,不仅要明确原假设是什么,而且要明确备选假设是什么.给定H0和H1就等于给定一个检验问题:(H0,H1).
注1原假设通常应该是受到保护的,没有充足的证据是不能被拒绝的(维持原样!).备择假设可能是我们真正感兴趣的,作为做检验的人,你的关心(信念或所希望的结局)被表达在备择假设中(故又称研究性假设).
一旦建立了原假设和备择假设,我们将在原假设正确的前提下进行工作,直到有充分的证据拒绝它.这正像审判,被告被假定是无罪的,直至充分的证据来证明无罪是完全不可信的(无罪推定).统计学家Fisher是这样解释的:有一个命题,称之为“原假设”,其含义是所关心的效应不存在.设计试验的唯一目的是寻求否定原假设的证据.Fisher强调原假设不能被证明,只能被否定. 2 单、双边检验问题
H0:???0,H1:???0——双边检验
H0:???0,H1:???0——左边检验 等号永远出现在H中! 0H0:???0,H1:???0——右边检验 3 检验(法)、检验的拒绝域与检验统计量
对于给定的检验问题,作出判断的依据只能是样本.关键的问题是你不能等到试验结果已经得知后再来制定接受或拒绝的准则,而是应该事先规定好这种准则——检验法(或检验).所谓检验(法)就是对样本空间的一个划分,并规定当观察值落入其中一部分时,就拒绝原假设;当观察值落入另一部分时,就不拒绝原假设.两部分分别称为检验的拒绝域(Rejection rejoin)与接受域(Acceptance rejoin).检验法对应拒绝域.给出了拒绝域就定出了检验法.
构造合理的检验法的通常思路找到适当的、从实际背景或理论上有说服力的统计量,使得在原假设成立时和在备择假设成立时,该统计量的值有差异.从而使得我们能够根据这个统计量的值的大小来决定是否拒绝原假设.称这个统计量为检验统计量(Test statistic).如引例,由于要检验的假设涉及总体均值?, 而X是?的无偏估计, 可以用X出发来考虑问
x??0题.如果H0为真, 那么x与?0的偏差
x??0或?n就不应太大(差异不显著).反过来,
X??0x??0若x与?0的偏差很大, 自然就怀疑H0的正确性而拒绝H0(差异显著).?n就可以作为检验统计量.这样, 从定性的角度去分析, 就得到了一个在直观上合理的检验:当
x??0?n?kx??0时, 就没有充分理由拒绝原假设, 而当?n?k时就拒绝原假设.k——临界点(Critical point).
之所以说是定性的,是因为这里k值究竟取多大尚未明确.这要看你的要求如何——“小概率”到底有小到什么程度. 4 两类错误及其发生的概率
假设检验中,无论你作出拒绝原假设或接受原假设的判断,都有可能犯错误.这个结论可能把你吓一跳:无论采取什么样的决策都可能是正确的,同时也都可能是错误的.既然如此,那还要假设检验干什么.请注意,概率论本身就是研究随机现象的,因此它的结论无不带有随机性.正如我们说“小概率事件在一次试验中几乎不可能发生”,这“几乎”就带有随机性.我们对原假设作出否定还是接受的判断都是根据小概率事件原理,因此犯错误和不犯错误的可能性都是存在的.若两者的可能性各占一半,那么“假设检验”确实没有任何价值.事实上,犯错误的概率是很小的.这样,“假设检验”才成为检验某种猜想可靠程度的一种优良方法.
第一类错误——(Type I error)—“弃真”:当H0为真时,拒绝H0.犯第一类错误的
概率
P{拒绝H0H0为真}??.
第二类错误——(Type II error)“取伪”:当H0为假时,不拒绝H0.犯第二类错误的
概率
P{不拒绝H0H0为假}??.
我们当然希望犯两类错误的概率越小越好.遗憾的是,对给定的样本量n来讲,一般而论,犯第一类错误的概率小时,犯第二类错误的概率就大,反之亦然(画图解释).因而不能做到犯两类错误的概率都任意小.只控制犯第一类错误的概率?(称为显著性水平(Significance level)),而不限制第二类错误的概率的检验称为显著性检验(或水平?检验(level?test)). 显著性水平是事先选定的.通常??0.1,0.05,0.01.根据以往的经验,非常相信原假设是真的,而犯第二类错误又不会造成大的影响或后果,此时?就可以取得小一些.如果第二类错误带来的影响较大,需要严格控制犯第二类错误的概率,此时?可以选得适当大一些.
三 假设检验的主要步骤
2X~N(?,?)(?2已知)问题:.X1,X2,?,Xn为样本,x1,x2,?,xn样本观察值.判
断是否???0.
第一步:提出假设(原假设和备择假设).(H0:???0,H1:???0)
X??0第二步:选取检验统计量.(Z??n~N(0,1)——Z检验(法))
H0P{拒绝H0H0成立}??第三步:对于给定的显著性水平?(??0.05),依确定拒绝
x??0域.(
k?z?2,?n?z?/2)
x??0?3?n?1.96?z0.025.不能认为砖的第四步:计算检验统计量的值,并作出判断.(平均抗断强度是32.50㎏/cm2)
四 假设检验与置信区间的关系
检验统计量与枢轴变量一致,置信区间?接受域.
例如,正态总体N(?, ?2)(?2已知),检验问题H0:???0, H1:???0.
x??0我们知道,上述问题的水平?检验的接受域为?x?nz?2?z?2,此不等式可记为 ,
?nz?2??0?x??n??x?z?2,?n对应区间?而?的1??C.I.为
x???z?2?n?.
??z?2,?X?n?X???z?2?n? 或
??z?2,?x?n?x???z?2?n?.
两个区间相同.可以看出,若?0在CI外,则拒绝H0;而落在CI内时则接受H0.或者说没有被拒绝的?0的全体构成此参数的CI.结论具有普遍性.
当然从实际应用看,区间估计与假设检验是不同的: ? 目的不同.
? 态度不同.作区间估计时,应该有相当大的把握,即较大的概率1??;而假设检
验是要在已经给出的关于未知参数的某个说法(假设)条件下,确定不能接受这个说法的容忍界限,从而制造一个小概率事件.
第二节 正态总体均值的假设检验
一 单个正态总体均值?的检验
情形1 ?已知时关于?的检验(Z检验法)(表8.1)(叙述检验过程)
2情形2 ?未知时关于?的检验(t检验法)(表8.2)(叙述检验过程)
2表8.1 正态总体方差已知时均值的水平?检验
原假设 ???0 ???0 备择假设 统计量及其分布 X??0Z?~N(0,1)?n 拒绝域 ???0 ???0 ???0 备择假设 z?z?2 z?z? z??z? ???0 表8.2 正态总体方差未知时均值的水平?检验
原假设 统计量及其分布 拒绝域 ???0 ???0 ???0 ???0 ???0 ???0 X??0t?~t(n?1)Sn t?t?2(n?1)t?t?(n?1) t??t?(n?1) 例1 一种元件, 要求其使用寿命不得低于1000 h.现从一批这种元件中随机抽取25件, 测得其寿命平均值为950 h.已知该种元件寿命服从标准差??100h的正态分布N(?, ?2).试在显著性水平??0.05下确定这批元件是否合格?
解 提出假设H0:??1000, H1:??1000.
Z?检验统计量
X?1000~N(0,1)?n.
X?1000??z??n拒绝域为z?.
代入观测值得z??2.5??1.645??z0.05.拒绝H0, 认为这批元件不合格.
例2 某厂生产乐器用合金弦线,其抗拉强度服从均值为10560(kg/cm2)的正态分布.现从一批产品中抽取10根,测得其抗拉强度为 (kg/cm2)
10512 10623 10668 10554 10776 10707 10557 10581 10666
10670
问这批产品的抗拉强度有无显著变化?(??0.05)
解 提出假设H0:??10560, H1:??10560.
t?X?10560~t(n?1)Sn.
检验统计量
t?拒绝域为
x?10560sn?t?/2(n?1).
代入观测值:t=2.788.因为t?2.788?2.262?t0.025(9),所以拒绝H0, 认为这批
产品的抗拉强度有显著变化.
注1 若取??0.01,查表得t0.005(9)?3.25, 于是t?2.788?3.25, 接受H, 认为这批产
0
品的抗拉强度没有显著变化.(解释)
课堂练习 甲、乙两厂生产同一种产品,其质量指标都服从正态分布,标准规格为120.分别抽取5件产品,结果如下:
甲:119 120 119.2 119.7 119.6; 乙:110.5 106.3 122.2 113.8 117.2 问两厂产品是否符合标准?(??0.05)
甲:x?119.5,s?0.4,t?2.795?2.776?t0.025(4),拒绝H0 乙:x?114,s?6.105,t?2.198?2.776?t0.025(4),不拒绝H0
注2如何决策?统计上的显著性(明察秋毫,s?0.4稳定,s?6.105不稳定)不同于应用上的显著性。 “统计是??科学和艺术”“理解注释比事物更重要”
二 两个独立正态总体均值差的假设检验
情形1 两个正态总体方差已知时两个均值差的检验(Z检验法).(表8.3) 情形2 两个正态总体方差未知但相等时均值差的检验(t检验法).(表8.4)
表8.3 方差已知时两正态总体的均值的水平?检验
原假设 备择假设 统计量及其分布 拒绝域