目录
4.1集成学习简介................................................ 31 4.2参与集成的分类器的选择原则.................................. 33 4.3选择的单分类器及其介绍...................................... 33
4.3.1朴素贝叶斯(NaiveBayes)分类器 .......................... 33 4.3.2 K近邻(KNN)分类模型 ................................... 34 4.3.3相对词频比(RFR_SUM)分类模型 ........................... 34 4.3.4最大熵(MaxEnt)模型 .................................... 35 4.4 集成法则研究 ............................................... 36 4.5 实验及分析 ................................................. 38
4.5.1单分类器实验结果分析 .................................. 38 4.5.2集成实验及分析 ........................................ 44 4.6实验总结.................................................... 50 4.7本章小结.................................................... 51 第5章 人机交互词义标校平台........................................ 52
5.1标注平台的设计.............................................. 53
5.1.1 标注方法的探索........................................ 53 5.1.2 结构框架.............................................. 53 5.2 标注过程中的质量控制 ....................................... 55 5.3 本章小结 ................................................... 58 第6章 总结与展望.................................................. 59
6.1全文总结.................................................... 59 6.2未来工作.................................................... 59 参考文献........................................................... 61 附录一:《春秋左传》高频词汇基本信息的统计.......................... 64 附录二:实验标注样例............................................... 68 在读期间发表的学术论文及研究成果................................... 71 致谢............................................................... 72
2
第1章 绪论
第1章 绪论
1.1 课题的提出
词义研究有着悠久的历史,可以粗略地分为语文学时期、传统语义学时期和现代语义学时期。早在汉代时,随着儒家经典的各种注书、辞书的大量涌现,进而逐渐形成了一门以研究词义为出发点和落脚点的具有实用意义的学问。这就是传统的训诂学。两千多年的传统训诂学对上古汉语词义解释、词源考证、同义词辨析等方面进行了深入的分析,取得了丰硕的成果,逐渐成为语言学的一个分支——词汇学的重要内容。
在现代语义学时期,汉语词义系统和汉语语义学模式的建立一直是语言学界和信息处理界研究和关注的热点。在信息处理迅猛发展的今天,训诂学的发展应当从训释一词一语的狭小天地中走出来,改变传统以手工为主的研究方式。要在研究方法上要有新突破,这都有待计算机的参与,以在浩渺的原始文献中,实现快速的检索和校对、考证研究、文白自动翻译等工作。这是语言研究与计算机科学的结合在信息时代的一个突出要求。中文信息处理技术的先进性必能为传统学科的研究提供更为科学的手段,推动训诂研究的现代化。
古籍的词汇考释等整理工作历来是靠人力手工,80年代以来,把计算机引入古汉字考释领域,利用计算机技术进行古籍整理工作等受到越来越多研究者的重视,已经研制出一些古籍整理计算机系统,如四川大学的“中文索引编制”、陕西师大的“十三经词语索引”、台湾东吴大学的“诸子集成系统”等,这些系统普遍具有阅读、检索、统计、排序、打印等功能[1]。目前古籍数字化的工作还刚刚起步,特别是先秦汉语的信息处理大体还处于字处理阶段,以解决古文字的输入输出、文献逐字索引等问题为主要研究内容[2]。文本词汇级别上的古代汉语信息处理包括分词、词性标注等,有了一些尝试性的探索实践。而在词义标注方面研究更是相对比较薄弱,仍是自然语言理解系统面临的最大问题。“词义瓶颈”问题还得需要我们从基础入手,为建立一个大规模、高质量的古代汉语词义标注语料库奠定基础,以推动信息处理中词汇级别上的这一最大难题的解决。简言之,语言研究的发展和语言应用的需求,决定了我们本课题的提出。
1
第1章 绪论
1.2 面向计算机处理的词义研究
1.2.1 词义消歧方法研究现状
所谓词义消歧[3],就是计算机利用推理机制,对出现在一定上下文中的多义词语的义项进行正确的判别和标注。如何模拟人脑思维的过程,建立语言、知识与客观世界之间可计算的逻辑关系,并实现具有高区分能力的词义判别模型,已引起了一些关注。诸多专家学者已在现代汉语词义消歧方法上进行了一定探索。前贤的方法主要分为如下几类:
(1)基于词典的消歧方法:
基于机器可读词典的词义消歧方法是充分利用普通词典中词条的释义文本,通过计算一个多义词各义项的释义文本与当前文本的重叠程度来实现消歧目的,如Lesk[4]提出的词义消歧方法。但当词条的释义文本比较短时,比如只用近义词或反义词来释义,则在该词出现的当前文本中难以找到与释义文本重叠的信息,因而影响了词义消歧的效果。义类词典按照词义将词汇组织成层次结构,提供单词之间的关系,词义消歧的效果要比使用机读词典好,正确率大约在80%。
(2)基于规则的消歧方法:
利用语言学家的语言知识,构造规则库描述语言知识,分析歧义词及其上下文,选择满足规则条件的词义。特别是基于转换的机器翻译系统。如CMU的KANT系统通过词法、语法消歧规则及人机交互方法进行词义消歧。
由于规则通常由专家内省出来,具有很强的主观性,知识不完备,因而难以应付研究领域的变化。如何维持规则库的一致性和可扩充性,也是该方法需要关注的问题。
(3)基于语料库的方法:
以语料库作为知识源,利用机器学习的方法,从标注的或未标注的语料库中自动或半自动地学习词义消歧的知识。例如,统计多义词语用作不同词义时的上下文信息,通常统计的特征有词语之间的搭配,利用这些信息对新输入句子的歧义词进行消解。该方法较基于词典的方法和基于规则的方法有明显的改进。1991 年Brown 率先把统计模型引入词义消歧研究中,目前应用较多的统计模型有:决策树、决策表、朴素贝叶斯、支持向量机、最大熵、条件随机场等。值得注意的是,为了解决训练语料数据匮乏的问题,自举学习(bootstrapping)成为研究的热点。将机器学习领域的多分类器集成引入词义消歧,是我们研究的目标。
(4)多种知识源综合利用的方法:
该方法综合利用多种知识和多种方法,获得更好的消歧效果。知识源的综合利用扩展了消歧可能用到的知识;多种方法的组合可以有针对性地解决不同的歧
2
第1章 绪论
义现象。刘颖[5]等人在不同层面将不同的规则,如配价搭配规则、属性制约规则和结构制约规则等,与基于马尔可夫模型的统计方法结合起来,在现代汉语领域实验效果较好。
词义消歧方法的研究从提出到现在,大体经历了基于理性主义方法到经验主义方法的发展变化过程。近十几年来,随着语料库语言学的兴起,在词义消歧问题研究中基于统计的词义消歧方法也日渐占据上风。这些成果主要是针对现代汉语的,在古代汉语处理领域中展开的研究却寥寥无几。总而言之,它在古代汉语中应有的应用价值还没有被充分地挖掘出来。 1.2.2 现有词义消歧的难点
如何模拟人脑思维的过程,对出现在一定上下文中的多义词语的义项进行正确的判别,这对词义消歧工作提出了严峻考验。词义消歧的工作还面临着诸多困难:
(1)要进行词义消歧,首先就要有一个理想的词义分类体系。而目前汉语词典关于词语的定义多是描述解释性的,很难反映词语在真实语料中的词义情况,表现在词语定义粒度过细,缺少新义等,使得现有的词典无法很好地应用于自然语言处理,成为词义消歧、词汇语义知识库建设等研究的瓶颈[6]。
(2)词义研究所需要的信息复杂多样,不仅取决于上下文环境词语的搭配,更重要的是上下文环境中词语意义的搭配,同时还受到主题的约束和篇章的一致性等诸多因素的影响。不同歧义词处理的难度和策略也因信息的复杂而不同。此外,由于一些语言学知识的缺乏或不易规则化,词义消歧知识的获取也是一大“症结”。
(3)受标注语料库规模的限制等原因,标注语料和测试语料不属于同一个领域,而且一些低频义项往往在语料中都不出现或者很少出现时,因此常导致出现严重的数据稀疏问题。
1.2.3 现有词义消歧的语言学资源
丰富的语言学资源为计算机的词义消歧研究提供了极大的方便,目前面向计算机处理的汉语词汇语义研究主要有:
(1)“八五”期间北京语言文化大学、清华大学等联合研究和开发了《现代汉语语义分析词典》。该词典分析了四万多个词,建立了一个较为复杂的事物类语义分类体系和一个语义特征描写体系[7]。
(2)北京大学计算语言学研究所从1986年起就开始研制《现代汉语语法信息词典》,它是一部供计算机分析与生成汉语句子而使用的机器词典。后来经过不断完善,现已收词7.3万左右。与供人使用的词典相比较,本词典是一部面向中
3
第1章 绪论
文信息处理各个领域的通用性词典,它不依赖于任何特定的语言处理模型及算法。
(3)中文概念词典(CCD)。CCD是WordNet框架下的现代汉英双语概念词典,同时提供汉英双语概念的语义知识表达[8]。在词典的设计上,它继承了WordNet的主要思想和观点,从关系语义学的观点出发,用同义词集合(synset)来描述概念,用概念间的关系(relation)来描述语义;同时,针对中文的特点,CCD也对概念的内容和概念间的关系进行了一定的调整和发展。CCD具有方便的语义关系表示和检索手段。同义词集合(同义关系)、上下位关系、整体部分关系等的描述,有利于实现概念的分级扩展和语义距离的计算,可以直接应用于机器翻译、自动文摘、文本分类、概念检索和信息提取等方面,为其中的语义理解任务提供宝贵的语义知识库资源。
(4)同义词词林。《同义词词林》原版是梅家驹[9]先生等人人工构造的,同义词词林扩展版(以下简称“词林”)是哈工大信息检索研究室在《同义词词林》的基础上,参照多部电子词典资源,按照人民日报语料库中词语的出现频度,编集而成。最终,词林收录的词语共有77343条。词林按照树状层次结构把所有收录的词条组织到一起,把词汇分成大、中、小3类,小类下再划分词群。每个词群中的词语又进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。
(5)董振东先生建立了知网,知网
[10]
以汉语和英语的词语所代表的概念为描
述对象,揭示了概念和概念之间以及概念与所具有的属性之间的关系为基本内容的常识知识库。由于充分的描述了这两层之间的关系,而且这种描述是高度形式化的,成为了计算机处理系统的知识库。
(6)黄曾阳[11]等以概念层次网络理论来建立网络式概念体系和语句的语义表达模式。进而试图建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。
计算语言学处理任务的目标是着重于应用,如机器翻译、自动文摘、文档检索、语料库和语言平台建设等方面。目前的研究水平与应用前景相比,差距在逐渐缩小,但基础理论研究仍落后于形势要求,尤其是深入到语义分析的研究寥寥无几。总而言之,目前可供计算的语言学成果,尤其是计算机最急需的语义学研究还不多。
1.3 本文的研究内容
词义研究在中国语言学界属于比较薄弱的领域,其原因主要有[12]:(一)语义研究本身固有的难度;(二)缺乏相应的理论指导;(三)缺乏一套行之有效的可操
4