第2章 古代汉语词义义项分析 表2.2 古汉语词类标注集
带标点字数 无标点字数 228269 178596 标点比率 21.76% 单字量 115254 (2)《春秋左传》前150个高频词汇基本信息
具体基本信息包括文本中前150个高频词的出现次数、频率、义项个数等,参见附录一。其中频率是指该词的出现次数占不带标点总字数的比重。之所以采用“不带标点总字数”作为频率计算的分母,主要是考虑到标点的标多标少,见仁见智,断句的处理至今没有统一的答案。对于义项个数的统计主要是针对实词的具体释义的统计,统计的依据是陈克炯的《左传详解词典》中的释义。
2.2古代汉语词义特点与消歧难点
“单音节词占优势”是古代汉语词汇最突出的特点,句子使用的字少,但信息量大,短悍精炼,一字多义现象普遍。针对信息处理方面,我们通过将古代与现代汉语词义相比较,发现古代汉语在词义消歧方面,困难更大,寻求适合古代汉语消歧的策略迫切至极。以下是古代汉语词义方面的特点[24]。
(1)深层语义丰富,常常很难从句子的表层结构明确语义关系。先秦汉语中的词,往往是在比单句更大的整个语言环境中才表现出某种特定的意义,因此在消歧的过程中,简单的上下文窗口是不能解决掉这种歧义的,增加了困难。
(2)词的词汇意义和语法意义是相互依存不可分割的。词汇意义总是和一定的语法意义关联着,语法意义又总是依附在一定的词汇意义上。如“妻”,名词,其主要语法功能做主语和宾语;但如果它在句子中取得动词的语法功能,它的词汇意义就成为“做妻子”或“嫁”。这就要求我们在上下文窗口的大小以及特征选择时,考虑周全,挖掘深层次的语义。
(3)古汉语词义系统本身复杂,具有近义性、通假性等特点。存在着大量的通假字、古今字、避讳字、繁简字等,使得字形与词义关系复杂,尤其是古今字的意义有同有异,不仅人理解困难,计算机更难处理。
(4)古汉语形义关系复杂,突出表现在一形多义上。词类及词的不同用法时常调和在同一个语音、文字形式之中。
在现汉词典中绝大多数为单义词,约占汉语词集合的85%左右,而多义词仅占14.8%[25]。在现代汉语中用几个不同的词来表达的意义,在古代汉语中却往往只用一个词来表达,加大了词形承担的内涵。大量的繁简字、通假字、避讳字等的存在,更使得古代汉语词形与词义的关系庞杂。所以古代汉语中多义词占了绝对优势。我们统计了《春秋左传》中的词汇及其词频,依据陈克炯的《左传详解词典》的释义,分析了词频表中前150个高频词的义项呈现情况。多义词的义项
10
第2章 古代汉语词义义项分析
呈现情况可以通过义项呈现数来考察。呈现数是指多义词在语料库中呈现的义项的实际数目[26]。
通过我们的考察,依据陈克炯的《左传详解词典》的释义,《春秋左传》语料中前150个高频词中,词均义项数为 4.84,义项最高数为16。具体如表2.3:
表2.3 古汉语词类标注集
S R 1 2 25 3 12 4 15 5 28 6 20 7 14 8 5 9 5 10 3 11 2 12 2 13 1 16 2 N 16 10.67 16.67 8.00 10.00 18.67 13.33 9.33 3.33 3.33 2.00 1.33 1.33 10.67 1.33 上表显示:(1)半数左右多义词的义项呈现数集中在2到7之间,共114个词,占150个词的76%。(2) 单义词仅占10.67%,其中多是一些专有名词和虚词。频率越高的词语,往往普遍具有较多的义项。前150个高频词中,多义词占将近90%,其中2-7个义项的占76%,8个以上的占13.33%,这就对进行多分类问题研究提出了更高要求,处理好这些词对词义消歧工作有着较高处理价值和必要性。
通过对语料的分析考察,我们认为古汉语词义消歧处理的难度主要表现在: (1) 频率越高的词语,往往具有的义项个数也较多,增大了词义消歧的难度。 (2) 多义词的各个义项分布往往不平衡,实际文本中只有少数几个义项占据绝对优势,强势义项和弱势义项数量悬殊大。
(3) 词典中义项分类颗粒度比较细,主要是面向人理解服务的,而几乎没有直接适合于古汉语词义消歧研究的理想的词义分类体系,机器可读词义资源匮乏。
(4) 古汉语语料资源有限,语料规模小,对现有的一些算法、模型,往往由于训练语料不足而带来诸多问题。
目前,作为主流的基于统计的现汉词义消歧所关注的是如何从训练语料中尽可能多的学习语言知识再对同质文本进行消歧。适合于机器可读的现汉词义消歧资源丰富,如知网、中文概念词典等,前贤古代汉语词义释义研究等都是面向人理解服务的,适合机器可读的古代汉语词义资源几乎为空白。总之古代汉语的词义消歧研究相对比较滞后,一方面除了古代汉语本身固有的复杂特点,重视程度不够外,还缺少研究方法的深入探索和基础资源的支持,这更需要我们从基础入手,探究理论,根据古代汉语特点,寻找在语料库支持下的适合古代汉语词义消歧的方法。
11
第2章 古代汉语词义义项分析
2.3义项区分的颗粒度
2.3.1义项划分的难点
要进行词义消歧,首先要有个理想的词义分类体系,而这个词义分类体系的构建必须要进行词义区分,因此,面向信息处理的自动词义区分成为解决词义知识获取的首要研究课题。词义区分的精粗多寡——颗粒度的问题该引起广泛重视,词义分类颗粒度对词义分布影响较大,词义分类粒度越小,多义词的平均义项数就越多,因而歧义现象越发明显。
在古代汉语中,形与义、义与义之间的关系更是复杂,怎样进行有效的义项区分,来确定合适的词义颗粒度,多个义项被“叠合”得更粗大还是被“拆分”得更细小,成为更艰巨任务。
古代汉语词汇一词多义现象普遍,词语在用法上又常存在活用现象,可以按习惯临时改变语法功能,用作其他词类,如名词、形容词的使动、意动等用法。因此这些导致义项的建立是否概括、义项的分合是否恰当、释义的表述是否合理等问题亟待解决。使动、意动等特殊用法中义项的显示和确认,要凭借具体的语言材料,即特定的“语境”来完成。而传统词典中,不讲(或很少讲)词语的功能和用法,对那些特殊用法往往并不单列义项。对义项的分合问题,目前人们主要还是从词义的性质本身,如词义的客观性、概括性来进行讨论,“就意义论意义”,主张“在意义联系最薄弱的地方划分义项”,王惠[27]也指出了其缺陷:究竟哪儿是意义联系最薄弱的地方,却没有一个客观的、可观察的衡量标准。Palmer[28]认为,建立在世界知识之上的意义区分是值得怀疑的,只有那些具体有形的标准,诸如论元结构、句法框架或者是选择限制,才能在义项区分中有效地发挥作用。但是这些跟词的义项对接的句法框架、论元结构等从哪儿来?又怎样对框架做出限定呢?在解决的过程中又难免带上很强的主观性。
王惠(2004)[27]强调指出了词语组合对词义义项的划分的重要性。对于是否单列义项,不仅要看内在的词义特征差别,而且还要同时考察它在语言中的具体用法,充分把握目标词的上下文搭配。因此,对于义项的归纳,我们认为理想的研究是考察每一个词在每一部文献中的所有用例,然后通过分析,再归纳出每一个词的用法特点,进而确定出该词的意义。但借助手工,凭借一人之力,难以毕其全功。正如郭小武所指出的那样:统计义项的动态分布是个功德无量的工程,但这首先需要对基础文本进行全面的义项标注,一人一时实难做到。
12
第2章 古代汉语词义义项分析
2.3.2义项划分的操作原则
义项的粗细颗粒度,是个相对的概念,根据概括抽象程度的不同可以有各种不同的结果,义项个数的划分主观性比较强。每个词的义项个数的多少并不是最本质的问题,关键是与特定应用紧密相连,要考虑到特定应用服务的对象与目标
[29]
。信息处理用词语义项区分主要是为计算机服务的,其目标主要是服务于诸如
机器翻译、信息检索、句法分析等,注重实用目的,需要严格建立在语料库实证基础之上[29]。如果完全或者主要依赖于语言学家的智慧和洞察力,那么就会存在严重的构建效率低,内部一致性差等问题,简言之,面向人的义类体系往往对于计算机信息处理要么过于粗糙,要么过于细微,很不完备。实际操作中,如果义项划分得过粗,就不能全面细致地反映这个词汇的意义用法;如果类划分的过细,标注集过于庞大,又往往会增加标注难度,降低标注效率,甚至呈现严重标注不一致现象。平衡这对矛盾,我们根据目的,确定多义词的义项的方法是根据词典资源提供的词义信息,具体针对某一个目标词的上下文语境,在面向人和机器的比较中抽取、概括适于信息处理的义项区分,把握好面向计算机的词义区分的颗粒度。因此,我们以《详解词典》和《汉语大词典》为主要参照,在此基础上依据在语料中的实际出现情况和语言信息处理的实用需求,对目标词的义项进行了适当处理,或删掉、或合并、或细分,确定词义的合适颗粒度。对此,主要遵循如下的原则:
(1)可行性:根据词语义项的区分,操作者(计算机或者人)能够对语料中的每一个目标词标注出义项,即义项区分对所标注的语料具有“完备性”[29]。
(2)区别性:义项之间有毫厘之差的,可以适当归并,前提是要保证义项之间的离散和不相交,能够找到每一个义项都同其它义项的区别之处。
(3)必要性:合并或细分某个义项,要考虑该义项是否有用,用处何在,是否对文本检索与分析有用,各个义项能够满足古代汉语各种检索或分析工作的需要。
(4)兼容性:尽量使义项的分合与已建立的各种资源的表示相一致。兼容性好,以有利于资源共享。
(5)针对性:针对本研究的最终统计结果是为计算机处理规范的古代汉语服务的,我们对极少数具有很浓的方言、口语色彩等的较偏僻义项另单独处理。
清晰的义项划分和描述是语料库标注一致性高的重要前提,制定这些原则,主要目的就是为了保证具体义项标注过程中的规范性、可操作性和内部一致性。
通过内省等方法制定的这些原则,带有一定的主观性,因此我们在这些原则的基础上考虑自动义项区分,自动词义区分是通过对真实文本的处理,利用完全
13
第2章 古代汉语词义义项分析
无指导的机器学习方法,区分和表示词义的过程。我们基于著名的分布假设,充分利用词语周围环境获知词语的词义,自动地从文本中区分出词语,特别是多义词的词义内容,确定词语有多少义项,进而预先定义好词义个数等。本文将这种方法归纳为基于语料中句子上下文相似度的自动义项聚类划分,以辅助人工确定义项个数。具体步骤如下:
(1)抽取多义词上下文语境中的词语,采用向量空间模型(VSM)构建目标词的词义向量。
(2)利用自底向上的凝聚聚类方法对目标词向量聚类,在聚类过程中相似性的判断采用余弦值度量。
向量空间模型将目标词的共现词映射成一个向量的表示形式,在n维空间中,向量可以表示成一个n维的有向线段,通常以两个向量之间夹角的余弦值来度量,公式为:
nCOS(X,Y)?
分别表示向量中第i个元素的值。
?xyi?1ii2y?ii?1n?xi?1n2i (2.1)
设X、Y为两个向量,COS(X,Y)为向量X、Y的相似度,其中xi与yi这种策略是以包含目标词的句子作为原子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。
凝聚算法的过程为:
(1):初始时,每个句子都组成一个单独的簇 (2): repeat
(3): 把那些相似度满足阈值的簇合并成一个簇 (4): 重新计算每个簇的中心
(5):until直到所有的成员组成一个簇为止或者所有簇的相似度都小于阈值。
2.3.3具体义项划分实例
在实验中,我们依据《详解词典》,对目标词的各个义项按照如上的原则进行了再定义,在真实语料上标注目标词的正确义项,例“如”在《详解词典》中有如下义项:
(1)动词,往。 (2)动词,像;若。
14