第2章 古代汉语词义义项分析
(3)动词,应该,应当。
(4)动词,比得上,比??更??常用在无定代词“莫”的后面。 (5)动词,相当于“奈”,表示“拿什么怎么办”
(6)连词,▲并列连词。相当于“而且”。▲假设连词。相当于“假如”。▲转折连词。相当于“却”。
汉语大词典2.0版对该词的释义更加详尽周全,义项多达26个,我们按照上述原则,将该词义重新归结为: (1)如1:动词:往,去。 十月,鄭伯如楚,子產相。
(2)如2:像,如同。
(3)如3:比得上。“如”作比类动词,此时其一般形式和它的否定形式不同。一般形式表示的是相似性,用现代汉语的“像,如同”去解释比较恰当。其否定形式“不如”、“莫如”表示的是在优劣高下之间的取舍,用现代汉语的“比得上”去解释比较恰当。它们在语义和组合关系上有着明显的标志,所以将“如”分列两个义项:一个是一般形式;另一个是否定形式。实例如下: 思我王度,式如玉,式如金。[像,如同]
唯/d 有 德者能 以/p 寛服 民,其次莫如 猛/a。[比得上]
如2,所带的宾语多由体词性词组充当,可以带指人的名词宾语,但是用例很少。而如3,则有大量的带指人的名词宾语和人称代词宾语的用例。
(4)如4:相当于“奈”。表示“对什么怎么办”。 然明謂子產曰:毀鄉校何如?/w (5)如5:应该,应当。
若求安定,則如與之,以濟所欲。 (6)如6:表假设,假如。 如匪行邁謀,是用不得于道。 (7)如7:表示举例。
如杞梓、皮革,自楚往也。 (8)如8:依据,按照。 王曰:寧如志,何卜焉?
实验中我们主要用到以下词,其经过我们处理后的义项内容及其义项分布情况如表2.4:
表2.4 歧义词义项以及义项分布情况
词 如 比例 50.93 將 表肯定, 将会;必定会 比例 8.31 我 自己集体 的一方 比例 42.18 20.41 义项1 往,去 义项2 像,如同 27.82 表时间,将要 73.33 领位关系 15
第2章 古代汉语词义义项分析
义项3 相当于“奈” 义项4 应该,应当 义项5 比得上 义项6 表假设,如果 义项7 表示举例 义项8 依照,按照
2.87 1.69 表疑问,反诘 10.36 自称单数 带领;侍奉; 护卫 统帅 完成 接受 比例 之 2.13 3.65 93.62 人称代词 指示代词 处所代词 1.44 1.95 3.79 0.41 0.41 37.41 比例 90.56 2.58 0.64 13.32 应该,应当 2.02 0.67 0.67 信 表肯定,确实 连宿两夜 明确 守信用 通“伸”,伸张 相信 信用 真实可信 比例 0.49 7.32 1.22 聞 知名,闻名 听见,听说 名声 比例 能 35.10 14.04 0.47 可能,能够 相得,相宜,和睦 表判断,犹“就是” 有能力,有才干 1.83 接受 0.61 0.61 取独助词 音节助词 结构助词 变为 去,往 0.47 通“耐”,忍受 0.43 34.17 5.79 6.71 20.73 12.80 9.98 1.87 3.90 注:比例为该义项在《春秋左传》语料中各自所占相对比例,可作为区分强势义项和弱势义项的重要标准。 2.3.4正确对待手工标注结果
本文探讨的“词义”,主要是能从大规模真实文本语料中获取的词义。我们在手工标注过程中“随文释义”,对同一个词语根据它在不同的上下文中的不同使用情况做出不同的解释,“观境为训”,因此,这也存在着诸多问题,譬如词义要具有相对的稳定性,而许多比喻用法、使动等特殊用法等都是不稳定的,是否将其列为词义呢?词义会随着具体语用环境的不同而显出差异,这样的词义的界定问题都给我们带来了困难。考虑到这些问题,我们也主要从以下三个方面来联系特定语言环境:
(1)从句义中求词语的具体义。标注出同一词语在不同语言环境中的特有含义。
(2)注意词语在句中的语法特点。往往语法特点不同的,词义也将有差别。 (3)注重词义的概括性与具体性的统一。
我们在对语文辞书释义分析与动态语料库资料考察相结合的基础上,重视词在句法结构中的位置,将语义、语法有机结合来释义。鉴于随文释义的结果,对
16
第2章 古代汉语词义义项分析
义项的分合影响比较大,但明确以下两点:
(1)由传统注疏的说解所体现的、训诂学意义上的随文释义的结果,能作为义项分合的依据。
(2)由古文今译的译文所体现的、现代汉语基础上的随文释义的结果,不能作为义项分合的依据。
在此基础上对义项的分合,是在对《春秋左传》中带有某个目标词的句子实例语料进行了反复考察之后,经过了“归纳—验证—再归纳—再验证”的过程,进而逐渐明确起来。
2.4特殊意义的处理
2.4.1假借字与假借义
假借字和本字相对,即应该写本字时临时写了一个同音替代字。假借字和本
字都是文字现象,不直接涉及词义问题。我们赞成洪成玉[30]所指出的,文字有假借,词义却不存在假借。假借只是文字问题,不是词义问题,词义不存在假借。假借义只不过是被借的字(本字)所记录的词所表示的意义。明确了这一点,也就对我们的消歧并没有带来很大困难。 2.4.2古今字与古今义
训诂学中所说的古今字,是反映文字为适应词义发展而产生的文字现象。一个新的词义的产生,由某个字来担任。随后,为了区别新旧意义,同时为了减轻原字的负担,就以原字为基础,增加或改变偏旁,另造一个新字。古今字所记录的词义不存在古今义的关系。一般说,古字在产生今字前,就兼有今字所记录的词义。这类词的特点是本原字和滋生字之间在意义上存在着一种个别和一般、具体和抽象的关系。滋生字和本原字在意义上并不完全相同,尽管意义联系密切,用字偶有混同,但我们认为还是从两个字的角度出发来消歧。而且当我们研究的是某一部特定书中字的具体意义时,其并无古、今的对立,简单地静态视为一个词形承担了多个意义,这个概念对具体书中的词义消歧并不带来影响。
2.5 消歧方法的探索
词义标注任务的完成,大致要经过两个阶段:词义划分和词义消歧。目前在大规模语料中实现自动词义区分还缺少技术、方法、应用等方面的研究与实践。
17
第2章 古代汉语词义义项分析
而这也不是本文的主要研究任务,我们依据词语在语料中的实际出现情况和语言信息处理的实用需求通过内省的方法确定出了合适的词义颗粒度。进而在语料资源、义项颗粒度大致确定的情况下,关键是选择合适的标注方法。传统的人工标注,因语料繁多,费时费力,并且标注一致性差,总体效率低下。所以必须考虑计算机自动标注,这就要探索词义消歧的方法。自动标注词义虽然不是自然语言处理的最终目的,但却是自然语言处理中必不可缺少的一个环节,具有重要的理论和实践意义。因此,词义消歧长期以来一直是现代汉语信息处理中的热点难点问题,学者们也在这方面进行了大量的研究,积累了丰富的方法。
主要的贡献有:(1)在词义消歧的基础资源建设方面有了很大突破,建立了大量的适合机器可读的语义知识资源,如知网(HowNet)、 中文概念词典(CCD)、同义词词林等,推动了词义消歧工作的研究进展。(2)在消歧的方法上进行了多方位的探讨,Ide和Veronis[31]概括为基于人工智能的方法、基于知识的方法和基于语料库的方法。Mihalcea和Pedersen[32] 概括为基于知识的方法、有指导消歧和无指导消歧。卢志茂[33]等概括为基于人工智能的方法、统计词义消歧(又细分为基于词典的方法、基于实例的方法、基于统计的方法)。
总体而言,在中文信息处理的词汇层面上,自动分词和词性标注已经有了成熟的、经过考验的技术和一般性的方法,如我们对古代汉语采取的分词和词性标注一体化策略处理,分词正确率已达到94.60%,词性标注也已达到89.65%。但在词义消歧方面却显得比较薄弱,在今后相当长的时间内仍是自然语言处理领域内的难题之一。
我们接下来的主要工作是在现有的词义消歧的理论和方法基础上,基于机器自动学习的复杂统计模型,结合古代汉语词义义项个数繁杂、句子短小精练的特点,选择合适的特征建立模板,重点尝试对“將”、“我”、“如”、“信”、“聞”、“之”、“能”等《春秋左传》中的高频词、典型词进行了词义消歧实验。
2.6 本章小结
本章介绍了我们在古代汉语语料上制定的分词和词性标注规范,考察了古代汉语词义的特点和词义消歧的难点,针对古代汉语词义繁杂的特点,我们确定了面向信息处理的义项区分颗粒度。下一章中我们主要讨论如何选择合适的特征和有效的模型进行古代汉语词义消歧实验。
18
第3章 基于CRF模型的消歧实验
第3章 基于CRF模型的消歧实验
上一章我们对古代汉语词义标注语料库建设的语料资源、义项粗细的颗粒度问题进行了探讨,下面两个章节主要是对词义消歧方法进行一定的摸索,以寻求适合的古代汉语词义消歧方法。
刘开瑛[34]曾经指出语言有两个特性:(1)词的意义是在运用中体现出来的,同一个词在不同的搭配环境中具有不同的意义。(2)语言具有较强的重复性,即一个搭配在语料中可能多次出现,这一性质使得排歧过程可以具有自组织能力。语言的这两个特性,词的具体意义的自动消歧,就完全有现实的可能性和理论依据。词义和词的分布之间具有密切的联系,一个词无论包含多少种意义,在一定语境中起作用的往往只是其中的某一个意义。词的不同意义往往会在句法和词汇搭配层面上表现出不同的组合特征,多义词在表现不同意义的时候必定是和不同的词一同出现的,根据和该多义词一起出现的其它词,就可以相对准确地判断出该多义词的真实意义。充分挖掘目标词所在的上下文语境的特征与规律,利用统计和规则的方法,以实现目标词义项的自动消歧,这就是我们所要解决的任务。
简言之,词义消歧就是根据多义词所在上下文为其确定一个最合适的义项,对这一过程,可形式化为一个典型的分类问题,把歧义现象分别作为分类问题的一个类别。词义消歧作为一个典型的分类问题,从机器学习的视角来看,主要分为模型选择和特征选择两个步骤。目前较多的分类的统计模型如:决策树、决策表、朴素贝叶斯、支持向量机、最大熵等应用到这一过程中,取得了良好的分类效果。本章的主要工作是在现有的词义消歧的理论和方法基础上,利用条件随机场模型,选择合适的特征建立模板,重点尝试对一些古代汉语高频词进行词义消歧实验。对消歧词的选取,首先以典型性为基本要求,同时保证高频量上的充足,
鉴于此我们选取了“之”、“如”、“能”、“我”、“信”、“聞”、“將”作为实验对象。
3.1模型概述
条件随机场CRF(Conditional Random Fields)[35],是一个在给定输入节点(观察值)条件下计算输出节点(标记)的条件概率的无向图模型,特别擅长处理序列标记问题。对于输入序列x和输出序列y,可以定义一个线性的CRF模型,形式如下:
P(y|x)?1exp(??kfk(yi?1,yi,x)???kgk(yi,x)) (3.1) Z(x)19