于丽丽先秦汉语词义消歧研究

2019-03-27 18:03

索取号: H131/3.111 密级: 公开

硕 士 学 位 论 文

先秦汉语词义消歧研究

研究生: 指导教师: 培养单位: 一级学科: 二级学科: 完成时间: 答辩时间:

于丽丽 陈小荷 教授

文学院 中国语言文学 语言学及应用语言学 2009年11月30日 2010年5月9日

学位论文独创性声明

本人郑重声明:

1、坚持以“求实、创新”的科学精神从事研究工作。

2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。 3、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表或撰写过的研究成果。

5、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。

研究生签名: 日 期:

学位论文使用授权声明

本人完全了解南京师范大学有关保留、使用学位论文的规定,学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版;有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进行检索;有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。

研究生签名: 日 期:

摘要

摘 要

词义消歧一直是自然语言处理中的热点和难点问题,有着重要的理论和实践意义,诸多学者已在现代汉语方面展开了一定研究,而在古代汉语领域,相关研究却很少有人涉足,我们所做的工作就是在古代汉语的词义消歧方面进行一些探索。

本文调研了现代汉语领域的词义消歧研究现状,分析了目前词义消歧所采用的相关技术,考察了古代汉语和现代汉语词义消歧方面的异同,在古代汉语词义特点的基础上,确定出面向古代汉语信息处理的词语义项区分应该遵循的原则和方法。然后在现有的词义消歧理论和技术的基础上,采用机器学习的方法,选择合适的特征,使用广泛应用于信息处理的高效率的CRF分类模型,将统计模型和语言学知识有机结合起来,对“如”、“將”、“我”、“信”、“聞”、“之”、“能”等古代汉语高频、典型词进行了单分类器的词义消歧实验,效果达到86.45%。最后基于NaiveBayes、KNN、RFR_SUM、CRF、Maxent模型进行了古代汉语词义消歧实验,根据单分类器消歧性能,运用乘法法则、均值法则、最大值法则、投票法则等集成法则进行了分类器集成消歧实验。实验表明按照乘法法则得到的集成结果F值最高,达87.17%;各个词的具体实验F值分别为86.59%、87.33%、88.07%、65.31%、92.93%、84.02%、94.33%,分别比其Baseline提高了35.75%,13.7%,46.02%,16.33%,2.02%,48.97%,4.26%,效果显著,可见分类器的集成对古代汉语词义消歧效果良好。

此外,本文在基于单分类器词义消歧结果集成基础上,开发了一个人机交互式半自动词义标校平台,提高了人工标注的效率,减轻了词义标注的负担,保证了标注的一致性。

关键词:中文信息处理,古代汉语,词义消歧,多分类器集成,特征选择

I

Abstract

Abstract

Word sense disambiguation has long been a central concern for natural language processing,which has the important theoretical and practical significance, so in the field of modern Chinese many scholars have carried out much research,however in the field of ancient Chinese, related research rarely involved.And we do some research about the ancient Chinese word sense disambiguation .

This paper firstly analyzes the ancient Chinese word sense and characteristic, inspects the difficulty of the ancient Chinese word sense disambiguation (WSD), and definites the principles and methods that should be followed by sense discrimination for Chinese language processing. Then basing on the existing theory and methods, we make use of methods of machine learning, choose the appropriate characteristic, use the high efficiency CRF model, which was widely used in the information processing, and we combine statistical model and linguistic knowledge, then we test 7 Chinese high frequency and typical words like “如”、“將”、“我”、“信”、“聞”、“之”、“能” etc., which the best average F-score achieved 86.45%. At last, we make use of the high efficiency NaiveBayes, RFR_SUM model, the Condition Random Field as well as the Maximum Entropy model etc, using 4 combining strategies of ensembles of classifiers and study the application of product, average, max, majority voting in the ancient Chinese WSD. Experiments show that according to the principle of product, we achieved the best F-score of 87.17%. And the F-score of the 7 words reached 86.59%、87.33%、88.07%、65.31%、92.93%、84.02%、94.33% respectively. And they are 35.75%, 13.7%, 46.02%, 16.33%, 2.02%,48.97%, 4.26% higher than baseline respectively, which indicates the method of ensembles of classifiers is effective to the ancient Chinese word sense disambiguation.

In addition, basing on the WSD ensemble experiment, a human-computer interaction platform which includes both tagging and correction was established. This platform can accelerate tagging speed, reduce the burden and complexity, and ensure the consistency of tagging.

Key words: Chinese information processing, the ancient Chinese, word sense disambiguation, ensemble of classifiers, feature selection

II

目录

目录

摘 要.............................................................. I Abstract........................................................... II 第1章 绪论......................................................... 1

1.1 课题的提出 .................................................. 1 1.2 面向计算机处理的词义研究 .................................... 2

1.2.1 词义消歧方法研究现状................................... 2 1.2.2 现有词义消歧的难点..................................... 3 1.2.3 现有词义消歧的语言学资源............................... 3 1.3 本文的研究内容 .............................................. 4 1.4 本文的结构 .................................................. 5 第2章 古代汉语词义义项分析......................................... 7

2.1语料的建设................................................... 7

2.1.1 研究对象............................................... 8 2.1.2分词、词性标注 ......................................... 9 2.1.3《春秋左传》高频词汇基本信息的统计...................... 9 2.2古代汉语词义特点与消歧难点.................................. 10 2.3义项区分的颗粒度............................................ 12

2.3.1义项划分的难点 ........................................ 12 2.3.2义项划分的操作原则 .................................... 13 2.3.3具体义项划分实例 ...................................... 14 2.3.4正确对待手工标注结果 .................................. 16 2.4特殊意义的处理.............................................. 17

2.4.1假借字与假借义 ........................................ 17 2.4.2古今字与古今义 ........................................ 17 2.5 消歧方法的探索 ............................................. 17 2.6 本章小结 ................................................... 18 第3章 基于CRF模型的消歧实验...................................... 19

3.1模型概述.................................................... 19 3.2特征的选择提取与特征模板的构造.............................. 20

3.2.1特征的选择提取 ........................................ 20 3.2.2特征模板的构造 ........................................ 22 3.3 实验数据 ................................................... 22 3.4 评测指标 ................................................... 23 3.5 条件随机场实验 ............................................. 23

3.5.1封闭测试时特征模板实验 ................................ 23 3.5.2开放测试时特征模板实验 ................................ 26 3.5.3窗口对实验的影响 ...................................... 28 3.5.4实验分析 .............................................. 29 3.6 本章小结 ................................................... 30 第4章 基于单分类器集成的消歧实验.................................. 31

1


于丽丽先秦汉语词义消歧研究.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:高级助产学模拟题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: