袭 芳 碧 四 春 秋 麝 晴 人 官 痕 儿 燕 纹 月 雯 10 11 12 13 14 15 16 1 图1怡红院群芳开夜宴座位顺序 黛玉7 湘云8 宝玉9 6 5 李纨 宝钗 探春2 宝琴3 香菱4 表1大观园群芳掷骰子顺序、点数表
摇骰次数 1 2 3 4 5 6 7 8 传递顺序 晴雯——宝钗 宝钗——探春 探春——李纨 黛玉——湘云 湘云——麝月 麝月——香菱 香菱——黛玉 黛玉——袭人 点数 5 16 19 18 9 19 6 20 我们感兴趣的是摇四颗骰子出现的点数分布,设这四颗骰子均为正常的骰子,则其分布率如表2所示: 表2掷四颗骰子点数的分布律
点数(Ai) 4 5 6 理论次数 概率P(Ai) 实际次数 1 4 10 0.0008 0.0031 0.0077 1 1 - 21 -
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 合计 20 35 56 80 104 125 140 146 140 125 104 80 56 35 20 10 4 1 1296 0.0155 0.0270 0.0430 0.0617 0.0803 0.0965 0.1080 0.1127 0.1080 0.0965 0.0803 0.0617 0.0430 0.0270 0.0155 0.0077 0.0031 0.0008 0.9999 1 1 2 1 8 我们看到,晴雯、宝钗等共摇了八次,竟然有六次结果是小于百分之五(0.05)的小概率是事件。特别是晴雯和香菱分别摇出了概率为.0031和0.0077的5点和6点。这种小概率时间对于单独的一次来说,是不可能发生的。对于总共只有八次的情况,出现的概率应该说是很小的。那么是否应怀疑所摇的骰子中有假呢?这个可能性也应该排除 ,因为曹雪芹书中并未作此交待,况且宝玉他们仅仅是摇骰子做游戏而并非赌博,并无作假的必要。那么出现这种小概率事件应作何解释?依笔者推测,曹雪芹在写到这一回事,事先确定了摇骰子的几位人物,并为他们设计了签子及诗句,以作为此人命运的写照和伏笔。例如轮到探春摇之前,她抽到签子上写道:《瑶池仙品》诗云:日边红杏倚云栽。注云:得此签者必得贵婿,大家恭贺一杯,再同饮一杯。这些话暗示着她后来远嫁之事。因而,我们可以推测曹雪芹写这回时是先确定了每一轮的人选后,再按照座次人物的顺序人为地确定
- 22 -
摇出的点数。如果曹雪芹有一些概率分布的知识,他就会合理安排人物的顺序而给出合理的点数,即不使这样的小概率事件发生。由此我们的结论就是:曹雪芹不了解概率分布,不太懂摇骰子中的概率理论。我们的这一理论一方面是根据统计逻辑推理,另一方面也考虑到概率论发展历史。
我们知道,曹雪芹是18世纪的人。他生于康熙年间,卒于康熙盛世(1719?-1763)。当时,由于赌博而兴起的概率论研究在西方也才起步不久。17世纪末至18世纪初,瑞士数学家J·贝努里写出一本重要的概率论著作《推测法》,提出了或然性原理和贝努里大数定律。他的这本书是在他1705年死后,由他的侄子N·贝努里于1713年整理出版的。继贝努里之后,法国数学家德·莫依弗尔进一步研究了概率论的问题,由二项式(p+q)n推出了正态分布曲线,这是1733年的事情。曹雪芹在世的年代,还无记载说明中国当时已进行了概率研究。而我们所知道的是,在19世纪末至20世纪初,概率统计理论才从欧洲经日本传入我国。这样,我们又从史实上证明了曹雪芹在当时没有具备掌握概率分布的客观条件,故我们在前边的推测和结论应该说是有根据的 。
该例中由于实际摇骰子的次数(8次)太少,因而无法向孟德尔豌豆试验那样进行拟合优度X2检验。但统计推理逻辑告诉我们,小概率时间对大量实验观察来讲,出现的次数是极少的,对个别事件来说是不可能发生的,我们就有理由对推理的前提质疑。我们这一推理的模式或者思想就是: A包含B B假/A极不可靠
其中B代表实际摇了八次的样本,A表示四颗骰子点数的分布率,或者摇骰子的随机试验。B假表示小概率事件不可能出现,那么由B假推出A极不可靠,即表明摇骰子的实验不是随机的。换句话说,上述事件是曹雪芹主观想象的。 这事儿不能怨曹雪芹,虽然曹雪芹如果一边写《红楼梦》,一边研究概率论,其成果可能比马尔可夫早问世一百多年,但中国的知识分子自命清高,认为赌博是有辱斯文的事儿,不可能向西方知识分子那样从中研究并创立什么概率论 。 那么,只好借助于赌徒修改《红楼梦》了,《红楼梦》第六十三回可作如下修改:贾环素日原本恨宝玉,近日又见他与众姐妹吃酒作乐,心中越发嫉妒,无奈,请教吃、喝、嫖、赌都占全的薛蟠,薛蟠让贾环买通了林之孝家的,在骰子上作了些手脚,原本是为喝醉他几个人,使夜宴败兴而散??笔者的这些修改,文采
- 23 -
远不及曹雪芹,甚至不如高鹗,但基本符合概率统计原理,使其不出现逻辑的错误。
统计与文学的这种结合,已由个别上升到了一般。请看下一回:人文的基因 艺术的巡礼。
参考文献
[1]《统计推断思想》袁卫著 1990年中国统计出版社 [2]《红楼梦》第六十三回 曹雪芹著 1982年人民文学出版社 [3]《世界统计名人传记》龚监尧著 2000年中国统计出版社
第七回 人文的基因 艺术的巡礼
我们所能经历的最美好的事情是神秘事物,它是所有真正艺术和科学的源泉。
——阿尔伯特·爱因斯坦
古今中外,人文社会科学没有一个非常明确的范围,但大体上语言、文学、艺术、哲学、逻辑、历史、政治、经济、管理等可算为人文社会科学。其中,哲学、逻辑、政治、经济、管理等学科与统计学的关系之密切是众所周知的。本回仅粗略谈谈统计学与语言文学之间的联系。
在一些人眼中,统计学与语言文学似乎在人类文明的两极。一个是理性思维,一个是形象思维,互不搭界。其实,这是一种偏见,统计学与语言文学之间,不论从历史与现实考察,还是从形式与内容来看,都有着深刻的关联。
数据是最简练的语言,统计学和数学中的公理、定义、定理是最无歧义的语法。因而,统计是语言文学所能达到的最高境界。早在19世纪中期,就有人提出用数量分析的方法研究语言现象了。1847年,俄国数学家布涅雅可夫斯基(1804-1889)提出了用概率论进行语法、词源和语言历史的比较研究。1894年,瑞士语言学家索绪尔(1857-1913)指出:“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律地表达出来。”在上篇故事中,我们也曾提到,俄国数学家马尔可夫(1856-1922)在对俄语言字母序列的研究中,提出了马尔可夫随机过程理论,促进了统计学与语言文学研究的结合。
随着科学技术、商业贸易和外交活动的发展,科技文献浩如烟海,国际间贸易和交流日益频繁,人类的语言障碍就显得越来越突出了。人们从事文献检索、信息加工、资料翻译的工作量日益加大。计算机的发明和应用,解决了这些繁琐而
- 24 -
沉重的工作。为了能让计算机进行机器识别、自动检索、语言翻译等信息处理,必须对语言学中各种概念用定量技术进行严格的分析,建立语言的统计模型,采用数据分析的语言描述语言现象。同时,计算自身的发展,如汉字系统、人机对话、通讯技术中的信息数据化等,也提出了用统计学研究语言文学的需求。另一方面,19世纪以来,多元统计、非参数统计、数理逻辑、定型数据分析、模糊统计等众多统计学分支的兴起,也为用统计方法研究语言文学提供了技术支持。 关于统计学与语言文学的联系,有很多有趣的故事,舍去一些铺垫转承等一些虚的东西,捡一些干货来说,统计学与语言文学的联系主要体现在以下几个方面: 第一,语言具有随机性 在文学作评中,语言符号的出现是不确定的。例如,老舍先生的《骆驼祥子》一书的总字数为107360字,但不同的汉字数仅为2413个。其中,“的”字出现的频率最高,为4.12%,其次是“他”字,频率为2.40%,这与一般文字材料高频汉字的排序不同。“的”字的高频出现,反映了口语化的老北京方言,“他”字的高频,表明老舍小说中用的是第三人称。这都说明了老舍作品的特点。此外,“祥”字出现778次,“虎”字出现220次,“妞”字出现174次,它们出现频率偏高与作品内容有关。
语言虽具有随机性,但语言符号出现的分布是有规律的。老舍先生用2413个汉字便写出了一部传世之作。那么,一个人学习一种语言,需要掌握多少词汇或字,才能顺利进行阅读和交谈呢?哪些是常用的基本词汇,哪些是一般词汇,过去是依靠语言学家的经验主观确定的,现在多采用概率统计的方法得出。汉字是一个十分庞大的字符集,《康熙字典》收字超过56000个,要从众多汉字中挑选出最常用的汉字,是一项工作量巨大的工程。
我国最早用字频统计选取基本词汇的是著名教育家陈鹤琴,1928年他编写了《语体文应用字汇》。1946年,四处省教育科学院根据陈鹤琴的《语体文应用字汇》和其它文献资料,编写了《常用字选》,选出了最常用汉字2000个。1952年,教育部公布了一个《常用字表》,收集常用汉字2000个.1964年经过精简分开,实收常用汉字减至1968个。1985年,我国完成了“现代汉语词频统计”的课题研究,编制出13种字频统计表。1986年,国家语言文字工作委员会根据对大量的文字资料的统计处理,先后编制了《现代汉语常用字表》和《现代汉语通用字表》,分别收字3500个和7000个。通过检验和实际使用,证明了这两个表的收字是合理适用的。
- 25 -