第二,语言有规律性 语言符号的出现虽是随机的,但在大量使用时可以呈现出统计规律性。这种规律性不仅表现在此字频显示的词汇式汉字出现的规律,还能描述出作家的写作风格。每位作者都有自己独特的风格,文如其人,除了作品的内容以外,遣词造句的习惯等语言特点也形成作品风格的重点特征。这种风格在数量上的表现就每位作者不同作品语言特点的规律性和不同作者语言特点的差异性。
在18世纪末期,一些期刊上署名为Federalist的12篇文章的真正作者是谁,曾引起长期争议。有人认为文章的作者是英国政治家哈密尔顿,有人认为是英国第四任总统麦迪逊。1964年,两位英国统计学家用统计方法开始对其进行考证。开始,用“平均句长”对哈密尔顿和麦迪逊的其他文章进行分析,结果是两位作者的“平均句长”几乎相同,无显著差异。后来,对两位作者的“用词习惯”进行统计分析,发现这两位作者在某些词的使用上有明显差异。哈密尔顿在他的18篇文章中,有14篇用了“enough”这个词,麦迪逊在其14篇文章中根本不用“enough”;哈密尔顿喜欢用“while”,而麦迪逊总是用“whilst”;哈密尔顿喜欢用“upon”,而麦迪逊则很少用。两位统计学家将哈密尔顿和麦迪逊的写作习惯和风格与署名为Federalist的文章进行对比合同及检验,最后确定麦迪逊是真正的作者,从而了解了长期的争论。
1928年,有人提出《静静的顿河》的作者不是肖洛霍夫,而是一位哥萨克作家克留柯夫。1974年,一位匿名作家在巴黎出版了一本书,断言克留柯夫是《静静的顿河》的真正作者,肖洛霍夫则是一个剽窃者。
为弄清事实真相,一些学者用统计方法进行了考证。具体做法是将《静静的顿河》同肖洛霍夫和克留柯夫两个人没有疑问的作品用计算机量化,采集数据,加以分析,研究结果表明,《静静的顿河》与肖洛霍夫的作品非常接近,与克留柯夫的作品则相距甚远,有充分把握程度推断出 《静静的顿河》是肖洛霍夫所作,从而了解了长达数十年的文坛公案。
第三,语言具有冗余性 语言符号用语法连接起来相互制约,使人们可以根据符号的关系判断有关语言符号的性能和内容。粗略地讲,所谓冗余性就是语言的简练程度。用语言组成的文章和口语越简练、越开概括、越原则,其冗余性越低,语言越精密、越细微、越具体,其冗余性越高。冗余性具有两面性。冗余性越低,文章洗炼,抗错能力强,但不便于识别和分解,传递的信息比较模糊。冗余性高,
- 26 -
文章显得有点罗嗦,抗错能力低,但便于识别和理解,冗余的信息比较丰富。 例如,“将要下雨。”这句话冗余性比较低,文字简练、开阔,并且所表达的内容100%的正确,因为它没有交代将要下雨的时间和地点,任何时间和地点下雨都能证明这句话的正确性。但这句话几乎没有什么有用的信息。
“明天上午10点,北京市朝阳区朝外大街要下雨”。这句话冗余性比较高,文字精细、内容具体、但抗错能力很差,因为所交待的下雨时间和地点太具体,区间范围太小,所以犯错误的概率相对较大。但这句话却给我们提供了有用的信息,为人们出行、交通管理、建筑工的施工、甚至防洪提供了防患于未然的资讯。 为什么领导讲话很少出错,因为他们的讲话一般都很概括、很原则,没有废话,冗余性很低,虽没有提供有用的信息,但抗错能力很强。事后出现的很多政绩都装到讲话的作用中去。但领导的讲话不易识别和分解,所以我们要全面而深刻的理解领导讲话精神。
语言的冗余性,可以用统计估计理论,检验理论和信息论方法进行分析和研究。 此外,语言还有离散性、递归性、非单元性、模糊性等与统计学和数学相互联系的显著特性。这些特性可以使统计学与语言文学有机地结合起来。
此篇故事是否可以应验那句话,现在已经很难找到一个不使用统计的领域了。请看下一回:诗词中的格律 平仄中的统计。(未完待续)
作者简介
袁卫,男,50岁多一点,中国人民大学副校长,教授,博士生导师。中国最著名的统计学家之一(具体排序不详)。
纪宏,男,50岁欠一点,首都经济贸易大学教授,博士生导师。中国最不著名的十大统计学家之二(之首为湖南大学许鹏教授,……,之九为上海财经大学张尧庭教授,之十为天津财经学院红叶教授肖老。由于“最不著名”属于逆指标,因而排序越靠后,越接近于“著名”)。
- 27 -