统计学的故事(2)

2019-01-19 17:04

他们设计并调制出很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。费雪端给她第一杯茶,她尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。费雪记录下她的说法,再送上第二杯,??。 读者可能会问,这个看上去没什么科学价值的实验,是我们的这位尊敬的费雪先生从事科研之余闲着没事干,找个由头和美女套近乎,还是有什么别的原因。 说来话长,从16世纪甚至更早的时候起,科学实验已经进行了几百年。实验是发现、检验和积累知识的工具。但是在费雪时代以前,实验带有科学家个人浓厚的独特风格,并没有科学的规范、程序,更谈不上实验设计。一流的科学家可以做出很有价值的实验,产生新知识;而不入流的科学家只是盲目地进行实验,虽然生产出一些数据,但对生产和积累知识没什么用处。此外,19世纪以前的科学家很少发表自己的实验结果,他们仅描述研究结论,并公布那些能证明此结论真实性的数据。至于实验过程和实验结果的科学性和可靠性我们不得而知。虽然科学是从发现问题、周密思考、观测与实验发展而成的,但究竟要怎样做实验,却从来没有被提及。经过多年的成功与失败,实验设计的理论和方法才发展起来。 1857年,奥地利统计学家孟德尔(Gregor Johann Mendel,1822-1884)不知为什么突然对豌豆情有独钟,非要把豌豆及遗传规律弄明白不可。他在教堂的后花园内一块不到2400平方英尺的畦田上,对豌豆及和豌豆有关的属类进行了实验,一干就是八年。经过八个春秋的耐心实验、仔细观测、不厌其烦,终于从宝贵的实验数据中获得了具有普遍意义的遗传统计规律。孟德尔成功的诀窍之一就是在整个实验进程中,自始至终都闪烁着可贵的统计思想。孟德尔靠自己敏锐的直觉,无意中按照现代推断统计的初步原则,粗糙地进行了实验设计。也就是说要设计一种较少规模的实验,既要保持植物天然杂交的程序,具有一定的代表性,又要尽量简化不必要的过程和减少偶然的随机干扰,便于观察研究。费雪在1936年指出:孟德尔是在总结前人实验的基础上,已经从理论上预料到会出现什么样的数据,然后才去安排实验的,因而只需要不多的数据就得出完美的结果。但是孟德尔只是公布了能够证明结论的数据,而不是全部实验数据。1940年,费雪检验了孟德尔公布的数据,发现这些数据完美得像真的,根本没有展现应有的随机程度。 在孟德尔之后,统计实验有了很大的发展,以剑桥学派首要人物贝特森(William Bateson,1861-1926)教授为首的遗传实验学派主张在实验中贯彻样本统计推断

- 6 -

思想,以园田小样本实验为基本方法。他们认为没有一定实验设计在事先指导,就是把数据收集得再多,也难说是很充分的,说不定还可能是没有价值的。如果事先有了精心的实验设计,就不需要大样本,其结果也能够接近理论预测水平。可见,贝特森学派的统计实验已接近现代推断统计。

以英国生物学家和统计学家皮尔逊(Karl Pearson,1857-1936)为首的生物统计学派以统计观察和描述作为进化和遗传的研究方法。他们认为:从大量信息中提取出的数据是得出一切正确结论的充要条件,其有效性是不可怀疑的。而仅仅做几个实验就推出全面的结论,在他们看来只是井底观天,是危险的。令人反感的(Naughty)从大量观察中整理和计算出有说服力的数据才是实验的关键。因而生物统计学派在整理手段和计算手段上取得了很大的成绩,如卡方检验、相关法、回归法的发展和完善等。

1899年,英国统计学家戈塞特(William Seely Gosset,1876-1937)在都柏林找到了一个令笔者垂涎的职业,到一家酿酒公司担任酿造化学技师,从事统计和实验分析工作,可以边喝啤酒边搞科研。但戈塞特首先碰到的困难,是供应实验用的麦子数量有限,无法采用当时通行的大样本观察和推断理论,而且每批进厂原料的质量都有所波动,对温度的变化也很敏感。万般无奈,戈塞特着手从小样本开始分析实验数据。小样本数据存在两个问题:一是误差怎样解决,二是如何从中尽可能得到较为可靠的结果。酒是个好东西,李白斗酒诗百篇,戈塞特的酒也没白喝。他经过反复研究实验,确立了小样本理论。1908年戈塞特以学生(student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章确立了“学生t检验”的基础,因而许多统计学家把1908年看作统计推断理论发展史上的里程碑。将戈塞特称为小样本理论的创立者和实验分析的先驱。费雪称他为“统计学史中的法拉第”。

费雪生的挺是时候,前面有很多科学家在实验设计方面积累了经验和教训,眼下又有美女相伴引发了灵感,更重要的是他的天赋和勤奋,创立和完善了实验设计理论和方法。

自1919年起,费雪在卢桑姆斯坦德农业实验站工作了14年,在实验活动中,不断收集肥料、雨量、遗传、土质、细菌、收获量等资料。与孟德尔修道院的后花园的条件相比,实验的环境更不易控制。引起实验结果差异的因素主要有两个:一是在田间实验中,土质、光照等客观条件不同;二是实验方法不同。由于这两

- 7 -

个因素往往同时起作用,因此,如何从总差异中分解出这两个因素各自的影响以及如何测定它们,是费雪所面临的问题。经过多年的努力,自1923年费雪陆续发表了关于在农业实验中控制误差的论文。首次提出了方差分析、随机区组、拉丁方等控制、分解和测定实验误差的方法。这样,费雪的主要实验设计方法在20至40年代完成。

1935年,费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。在书的第二章,费雪就提到了剑桥午后的品茶和那位美丽的女士。当时,费雪设计了各种可能的实验方法,来测试美丽女士能否分辨出不同的茶。问题是,如果美丽女士只是哗众取宠而没有真本领能分辨出不同的茶,那么拿一杯茶给她品尝,她也有50%的机会猜出这杯茶的调制方法;如果给她两杯茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错或全部猜对。如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还有可能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多杯以后感觉已经不太灵敏。总之,品了十杯茶,有可能会弄错一杯。在书里,费雪讨论了各种可能结果,描述了该准备多少杯茶,依照什么顺序拿给她,然后根据她回答的正确与否,计算出各种结果的概率。这就像笔者给学生出考卷一样,根据教学的内容,一份考卷应出多少道题,各类题的顺序如何,选择题的备选答案如何排列。总之,是为了让学生考出水平,让好学生可以得高分,让不好好学习、仅凭临阵蒙事的学生,可能蒙对一、两道题,但还是不及格。

费雪的成就引起了广泛关注,首先是农业科学家了解到实验设计的伟大价值。 不久,费雪的方法成为农业科技上的主流学派,后来又被他的学生推广到其他科学领域。

至于剑桥午后品茶的那位女士,据说她能分辨出每一杯茶,全部答对,看来,这位女士不仅仅是美丽。哲人说得好,女人是感性动物,男人是理性动物。如果感性动物与理性动物联起手来,科学的天空将更加美丽。请看第三回:彩虹为何眩目 且听统计描述。

参考文献:

[1]《统计,改变了世界》萨尔斯伯格著,叶伟文译,台湾天下文化书坊,2002.4 [2]《世界统计名人传记》龚鉴尧著,中国统计出版社,2001.1 [3]《统计发展史》陈善林、张浙编著,立信会计图书用品社,1987.9

- 8 -

[4]《殴美统计学史》高庆丰,中国统计出版社,1987.8

第三回 彩虹为何眩目 且听统计描述

如果人总是从一滴水中观察光线的反射,他就很难理解美丽的彩虹现象

——凯特莱

有一句歌词写的挺好:“不经历风雨怎能见彩虹”。好就好在写得有些道理。 第一,这句歌词写清楚了风雨和彩虹的关系。风雨在前,彩虹在后;风雨是因,彩虹是果;风雨是解释变量,彩虹是被解释变量。

第二,这句歌词还告诉我们,透过一滴雨水是看不见彩虹的。虽然歌词没有讲清楚能够看见彩虹的雨是中雨、大雨、还是暴雨,但必须是有足够多的雨滴组成的雨。词作者可能不懂统计,但他有大数定律的朴素思想。

但是,歌词写得虽好,在理论上还存在一些问题。在自然现象中,风雨一般是结伴而行的,有一句话叫“风雨交加”嘛。但经科学分析,我们可以得出结论,风和彩虹没什么相关关系,将风雨加在一起写进歌词,好像风和雨对彩虹的出现各有50%的贡献,与事实不符。显然,词作者在这方面的知识不如凯特莱,至少他不懂变量筛选技术。更严重的问题是,词作者遗漏了一个更重要的变量,即雨后的阳光。不论雨量大小多么适合彩虹出现,如果雨停的时间正好是后半夜,也绝见不到彩虹。

如果笔者写这句歌词,绝不会出现上述的不严密。

比较准确的表述是:雨后的天空,当雨滴还飘散在空气中,来自远距离的太阳光线投射在雨滴上,产生一系列的彩色圆弧,可分解为赤、橙、黄、绿、青、蓝、紫七色光带,此时天空中的景色异常美丽,这就是人们通常所说的彩虹现象,简称彩虹。有时在彩虹的外侧还能看到第二道虹,光彩比第一道彩虹稍淡,称为霓。虹和霓的色彩排列次序正好相反。虹的色序是外赤内紫,而霓的色序是外紫内赤。以上表述便是彩虹的比较全面的定义。此定义虽比原歌词严密,但估计谱上曲子唱出来,可能没有原歌词上口。

多少年来,在人们看来,彩虹是美丽而神秘的。史书有记载,民间有传说,少女借其抒情,词人借其咏志。早年间,希腊女神Iris把彩虹作为警示和希望的征兆;在非洲的神话中,彩虹被认为是暴风雨过后出来掠物的巨蟒;我国殷代甲骨文中,

- 9 -

认为彩虹是龙在雨后的显形,所以虹字带上了“虫”字旁,并一直沿用至今。 科学家,这里主要指物理学家和统计学家忒不会浪漫,他们非要打破人们对彩虹的七色梦幻,还其以一个用科学解释和变量描述的本真。经过他们几百年的努力,彩虹的谜团正在解开。

“赤橙黄绿青蓝紫,谁持彩练当空舞”。是什么东西决定了彩虹的出现,彩虹为什么有七种颜色,七种颜色为什么又有特殊的排列,彩虹为什么在当空舞成一个抛物线,即一段圆弧,“当空”到底有多高,即什么决定了彩虹的高度,为什么虹出现以后,有时还会出现霓,等等。从十四世纪开始,科学家包括笛卡尔、牛顿等一些科学巨匠就开始捉摸这些问题。逐渐地,人们开始认识到彩虹与雨滴对光的反射和折射有关。

任何一门应用统计,都是统计理论与方法和所应用领域学科的结合。经济统计学就是统计理论与方法和经济理论的结合。彩虹问题也不例外,应当是光学与统计学的结合。但笔者的光学知识甚少,只停留在光线太暗了什么都看不见,光线太强了刺眼的水平上。所以,在彩虹问题上笔者出现的系统误差请读者不要太挑剔。

远在1657年,法国数学家、物理学家、概率统计的奠基人费尔马(Pierre de Fermat,1601—1665)提出了著名的Fermat原理。费尔马发现光线是沿直线传播的,遇到障碍物又能拐弯,由于介质不同或不严格地说障碍物不同,光线的拐弯可分为反射和折射。

我们假定天空中的雨滴是一个球体。太阳光从远处通过空气射到雨滴,由于远处很远,所以可以假定太阳光线是相互平行的。阳光从空气穿过雨滴的过程中,一部分光线被反射,另一部分光线通过折射而进入雨滴内部,进入雨滴内部的光线又经过反射和折射,最后再折射回空气中,便形成了虹。如图所示:

α α ?O?αα Α A ? B Β C ? - 10 -


统计学的故事(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:现代汉语专题综合题库

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: