概率分布统计学复习资料(8)

2019-03-16 20:53

由中心极限定理知:

(X?Y)?(?x??y)?x2?2y~N(0,1)

n?m双侧检验假设:

H0:μx=μy H1:μx≠μy 构造的检验统计量在H0成立时有:

??????X?Y???????2?x?2y1??2?~N(0,1) n?m????对给定的显著性水平α,查表得μ1-α/2

的值,则该检验的拒绝域

????c=??X?Y???????2?xy1??2? ?n??2m???右单侧检验假设:

H0:μx=μy H1:μx>μy

????c=??X?Y??????21??? ?x?n??2y?m???左单侧检验假设:

H0:μx=μy H1:μx<μy

????c=??X?Y?????1?????22?x? ?n??ym???为:

例题“先进工艺与普通工艺差别”的分析思路:

假设二样本的数据来自同一总体,则其差距应该比较小。

差距数值应该服从正态分布,但在小样本时,必须使用t分布(红色图形)。差值过大或过小,概率都比较小,落在图形的两端,此时,有理由怀疑原假设,而接受备择假设。

张国权《应用概率统计》132页15题

n=10, m=9, x1=2.24, S12=0.089, x2=1.96, S22=0.048

?x?y?????2xx??ym?~t(n+m-2)

n?2?y对于1-α=0.95查t分布概率表得tα/2(17)=2.898 计算(公式见107页5.10式)

?x?y??t1??211?= nm11?= nm?x?y??t

1??22.试验设计与方差分析

一、试验需要设计

例如,你手头有两颗钻石,要在一架天平上称出其各自的重量。一种办法是一次称一颗,若不计较天平的误差,称两次即得所要的结果。这当然是一个合理而可用的安排,但如考虑到天平有称量误差,则上述的安排不是最好的。最好的安排是这样:第一次把两颗钻石一起称,得出结果 X1。第二次把钻石甲、乙分别放在天平的左、右盘,再以砝码平衡之,约定论码在右盘时为正,在左盘时为负,将其结果记为X2,X2表示甲的重量减去乙的重量。图4.1是一个示意图,表示甲比乙重的情况。得到数据X1,X2后,分别以 y=(X1+X2)/2和(X1-X2)/2估计钻石甲、乙的重量。

为什么这种做法比一个一个称的安排好呢?从平常的眼光看这不好理解,反觉得有些自找麻烦,但从统计分析的角度可以解释,由于不太复杂,不妨稍仔细地谈一谈。

分别以a、b记钻石甲、乙的真实重量。第一次称时甲、乙在一起,称的是a+b,结果为X1。由于有误差,X1并不恰好等于a+b,而还要加上一个随机误差e1: X1=a+b+e1 (a)

第二次称,甲在左盘乙在右端,称的是a-b,结果为 X2,同样,由于有误差,X:并不恰好等于a-b,而还要加上一个误差e2:

X2=a-b+e2 (b)

把(a)、(b)两式相加,得X1+X2=2a+e1+e2,即 (X1+X2)/2=a+(e1+e2)/2

从此式看出,虽然用(X1+X2)/2去估计“仍有误差,但误差(e1+e2)/2是两个误差的算术平均。在前几章中我们多次指出,平均的结果使误差方差下降而改善了精度。对b的估计有同样的结论。所以,在这个新的安排之下,我们并未增加称量次数(一共两次,与一个一个称且各称一次的次数同),但改善了估计的精度。如果用逐个称的方法,要达到同样的(改善了的)精度,需要每一颗各称两次,一共4次;这样,通过上述聪明的安排,在不增加称量次数的条件下,把事情做得更好了。

另一个极端是:每次都把甲、乙放在一起称。如果这样安排,不论你称多少次,都只能得出甲、乙重量之和的估计,而无法分开来,我们的目的(称出每颗钻石之重)无法达成,因而这是一个不好的安排。 也许会说:这个问题可笑,谁也不会做这样愚蠢的安排。确实,在这种简单问题的情况下是如此。但是,在一个复杂的问题中,由于考虑不周到而犯下这样的错误,就不仅可能,且有时为了避免这种错误还要大费周折。

举一个简单的例于:治疗某种疾病有现行的方法A。有

人提出了一种认为可提高疗效的新法B。为进行验证,各取患者若干人做试验,结果表明 B的治愈率高。但仔细一检查,发现用疗法B的患者多数年轻而病情轻,用疗法A的患者则反是。这样一来,试验结果的解释就不一定是B优于A,而可能是由于其他原因——使用疗法 B的患者素质较好。这实际上与上述称重量的问题无异:我们“称”出的不是疗效,而是“疗效+素质”。

把以上讲的小结一下,我们说,干扰一个试验结果的有:(1)混入的系统性因素。(2)随机性的误差。前者是指那种显著的,可以造成重大错误的因素,例如病人的情况不同可能对疗效的估计产生重大错误。又如要通过试验验证,一种工业产品的新配方(或新工艺),是否真能改善产品的性能。但新旧两种配方的试验分在两个工厂做,而这两个厂的设备条件和工人素质都有差异,后者作为系统性因素混入试验结果,使我们无法做出可信的结论。避免这种情况的方法有二:一是设法消除,如在前一例中,可选择年龄病情大致相当的患者去做临床试验。二是将其计入,但采取适当的试验安排,以使之能与我们关注的效应分离开。如在后一例中,可以把两种配方都在两个工厂中生产,使工厂条件上的差别在数据分析中互相抵消,而不与配方优良性的效应相混淆。

随机性因素的影响是不可能完全消除的,只能采取一些办法加以抑制,不使之过大以防造成试验结果在解释上的不确定性。例如要准备多份材料做同一个试验,虽然在准备材料时力求其均匀纯净,但总不可能绝对如一,这差异就作为误差进入试验结果,如果它过大,就可能造成下述情况:从试验结果上看甲、乙有一定差异(比如品种甲的亩产比乙高一些),但随机误差很显著,大到可以与这差异相比拟的程度,我们就无法确定:数据上显示出的甲乙差异究竟是因为二者真有差异,还是因为随机误差的干扰。

抑制随机误差的影响一般有3种方法,一是工作认真细致。如准备试验材料时尽量做到均匀纯净,用天平称物时小心操作,避免外界环境和个人因素(注意力不集中等)的干扰。二是重复。比如天平灵敏度不高,就多称几次求其平均,利用平均值误差下降的原理缩小误差的影响。三是进行适当的安排。前面所举天平称钻石就是一个例子,在该例中,适当的安排在不增加称量次数的情况下,缩小了随机误差。

上面我们多次提到“安排”一词。这是指如何安排试验,使之达到消除系统误差和缩减随机误差的干扰。在统计学中,把这种安排试验的学问叫做“试验设计”,它是统计学的一个重要分支学科。从上面的讨论可以看出:设计(或安排)试验,并不涉及该试验相关的学科专业知识。化学试验如何做,生物试验如何做,这是化学家,生物学家的事,统计学家所做的,只是帮助他们从数学的角度设计一种有效的安排,它只涉及某些配置问题(或者说组合问题),而不去干预其具体操作。如在天平称钻石的试验中,统计学家建议那样一种称法(先两个一起称,再一边一个称),至于如何去调整,操作天平,那要由懂行的人去做,不在统计学家职责的范围。

再比如,汽车运输公司想比较两种汽油哪个能提供更多的动力(用行驶里程/升计量),可以想象这个指标和什么因素有关:汽车类型、驾驶习惯、道路情况、交通拥挤程度、天气情况等。用100辆出租车做试验,结果:1加仑=4.5461升,1英里=1.6093千米 A汽油 B汽油 样本容量n 50 50 每加仑行驶英里数x 25 26 标准差S 5.00 4.00 2S12S2差别是1英里/加仑。但标准差很大,抽样平均误差也很大(S(x?x)==0.905) ?12n1n2在95%的置信度下,估计两种汽油的差别:=x1-x2±1.96*0.905=-1±1.774 这个区间包括0,假设两种汽油无差别,则备择假设就是有差别。 ???(26-25)/0.905=1.1(公式?????????) ????X?Y?2xn??2y??1??2m标准分为1.1时,覆盖面积为0.7286,则超出这个范围的概率是0.2714,它明显大于0.05,则拒绝原假设,不认为两中汽油存在差别。

这实验显然是失败了,明明看到4%左右的差距,但统计计算结果并不承认这差别,其主要原因是标准差比较大,置信区间比较宽。其中的一个因素是没有较好安排,使标准差变得比较小。

更好的方法是:在不同的日子把不同汽油分配给同一辆车。以抛硬币的方式决定在星期二或星期三使用A汽油,而且把试验用出租车减少到10辆,记录结果: 车序号 汽油A 汽油B 差数d

1 27.01 26.95 0.06 2 20 20.44 -0.44 3 23.41 25.05 -1.64 4 25.22 26.32 -1.1 5 30.11 29.56 0.55 6 25.55 26.6 -1.05 7 22.23 22.93 -0.7 8 19.78 20.23 -0.45 9 33.45 33.95 -0.5 10 25.22 26.01 -0.79

25.198 25.804 -0.606 平均数

4.268897334 4.101366168 0.614278 标准差

两种汽油的平均数和标准差大体相同,这在意料之内,因为与不成对的试验一样,它们的离差来源相同。但差数一栏的标准差很小。尤其通过一辆汽车比较汽油的性能,消除了不同出租车之间的离差。

差数d为每辆车提供了惟一的差距标准,可用来计算小样本(n<30)的检验统计量t,

t=d Sdn在95%的概率下,以d为中心的置信区间是 d±t0.025*

Sdn在95%的概率下,有置信区间-1.04<=μd<= -0.16

=-0.6±2.26*(0.61/√10)=-0.66±0.44

建立原假设:μd不等于0

t值为0.6/0.19=3.15,自由度为9,用EXECL查:TDIST(3.15,9,2)=0.01173755(这是概率值,3.15是t分数,9是自由度,2是双侧检验)。说明两种汽油不同的假设通过检验。

成对比较的思想很重要。

现在加入轮胎试验。有两种轮胎也需要测试。 轮胎A 轮胎B 出租车1 出租车2 出租车3 出租车4 星期一 a b c d 汽油A a c 星期二 b c d a 汽油B b d 星期三 c d a b 星期四 d a b c 假定一周内每天天气系统,用4辆车做试验,分配方法如下:

每组试验品在每行每列出现一次。


概率分布统计学复习资料(8).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小学语文毕业升学模拟测试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: