第1章 绪论
作的分析方法。随着语言研究的深入以及语言工程实践的推动,词汇语义学成为当今语言学中一个备受关注的研究热点,研究者越来越注重吸收语言学与其他学科领域如句法学、认知语言学、语料库语言学、计算语言学等的相关理论和方法来充实词汇语义研究,也越来越讲究分析过程的可观察性、可操作性及研究成果的客观性和可验证性,尤其强调要在词语的使用环境中观察词义成分的差别,而不是仅仅依赖于内省的直觉判断。从计算的角度来看待汉语词语的多义现象,或许会有一番新的景象[13]。
本文的研究内容主要如下:
1.通过对《春秋左传》语料的词汇、词频等的统计,结合陈克炯[14]《左传详解词典》和《汉语大词典》的义项解释考察,根据相关的词义分类理论,基于上下文特征,重点研究“將”、“我”、“如”、“信”、“聞”、“之”等义项复杂的词语义消歧。
2.在资源建设问题上,以《春秋左传》中的词汇为底本,在考察了该部书的分词、词性标注以及词频统计等工作的基础上,针对词义分布的不同特点,通过抓典型,引入NaiveBayes 、KNN、RFR_SUM、CRF以及Maxent等分类模型进行了消歧实验,并采用多分类器集成的方法,进行了多种集成模式的消歧效果研究。
3.建立了一个人机交互式的平台,通过人机交互的方法,力求使用半自动化技术高效实现古代汉语的部分词义标注。该平台能够提高人工标注的效率,自动维护标注的一致性,检查标注中的错误,进而使得标注者的标注速度、标注正确率和标注一致性得到显著的提高。
[15]
1.4 本文的结构
本文共分6章,各章安排如下:
第1章为绪论,介绍课题的提出背景、前人的研究现状、本文的研究内容及结构。
第2章从语料建设、古代汉语词义特点和消歧难点、消歧方法等方面对古代汉语词义消歧进行了探讨。
第3章介绍了基于条件随机场的词义消歧方法。讨论了特征的选择提取和特征模板的构造,尝试加入不同的语言学特征,进行了CRF在不同特征模板下的封闭和开放测试实验。
第4章介绍了集成分类学习的相关内容和本文所选用的几个分类器:NaiveBayes 、KNN、RFR_SUM以及Maxent分类模型。同时我们还介绍了四种基于带概率输出的分类器的集成法则,在考察了几种单分类器的性能的基础上,运用集成法则,进行了多个不同的集成实验。
5
第1章 绪论
第5章采用多分类器集成的标注方法设计并实现了一个人机交互半自动词义标注平台,实际使用表明该系统可以最大限度地提高词义标注的速度并保证标注的质量,为大规模建设古汉语词义标注语料库提供了一个平台和基础。
最后,对本文的工作进行了总结和展望,概述了论文工作的主要内容,并提出了下一步工作研究的设想。
6
第2章 古代汉语词义义项分析
第2章 古代汉语词义义项分析
词义标注是一项繁杂的任务,涉及语料资源的选择(语料的平衡和规模)、词典选择(词义区分的颗粒度)、标注方法(正确性和一致性如何保证)等方面的工作
[16]
。在具体标注方法上,有手工标注和自动标注之分。而自动标注就涉及到了词
义消歧,词义消歧是在特定的上下文中,让计算机自动为多义词选择正确的义项,是词义标注的一项重要的基础性工作。词义消歧方法的效果直接决定了词义标注的质量和可靠性。词义消歧是大多数自然语言处理任务的一个必不可少的中间层次,推动着语料库的建设多层次地发展。
现代汉语领域的词义消歧工作取得了一定进展,无论在消歧方法的探索方面还是词义资源的建设方面都积累了一些成果;而古代汉语数字化的工作起步较晚,尤其在机读词义资源的建设方面更是滞后了很多。目前,北京师范大学宋继华、王宁[17]等正在构建基于语料库方法的《说文解字》的数字化研究环境,以帮助传统语言学研究者衍生出适应信息时代的数字化研究方式,其所做的工作包括四个主要环节:1、语料的设计与采集;2、语料的切分与标注;3、知识获取与表示;4、知识挖掘与发现。其工作是使计算机技术真正融于人文科学研究的过程,意义重大。为推动词义消歧等工作的展开,我们也将首先围绕语料选择、词典选择、标注规模和标注质量等方面在古代汉语领域展开探讨,以期能够推动古代汉语词义标注语料库的建设。
2.1语料的建设
我们的项目“先秦汉语词汇统计与知识检索”,研究内容是对25种最重要的先秦传世文献进行词语切分、词性标注、个别常用词(包括古今字和通假字)的词义标注,建立先秦文献的词汇知识库以及历史知识库并研制相应的检索系统
[2]
。做好这一项目,首先要面临的就是语料的建设问题。要建设好,首先就主要
考虑语料的质量,具体包括文本中繁简字、古今字、异体字等的规范书写以及语料的代表性等。网上的电子文本也非常多,但常常流于粗糙,校对不精,还存在内码不一、格式不一、出处不详、缺字严重等问题。在这一项目中,我们首先进行了文本与纸质文本一致性的校对,并相应进行了统一内码、统一格式及部分重校等基础工作。
文本词汇级别上的信息处理基础工作主要有分词、词性标注、词义标注等。其中,古代汉语分词技术方面有了一些比较有特色的尝试,如邱冰[18]提出了一种
7
第2章 古代汉语词义义项分析
基于计算机自动分词的词汇处理及量化统计方法,即启发式的混合分词方法。李斌[19]也提出了面向中文陌生文本的人机交互式分词方法,开发出的人机交互式汉语分词系统在古代汉语自动分词处理研究中有重要的应用价值。在词性标注方面,台湾中央研究院[20]制定了约55个词类标记来对古汉语文本进行标注。我们参考了其精华,基于我们具体的语料标注工作基础上,制定了21个词类标记,根据分词和词性标注一体化的思想来对古代汉语文本进行了相应处理。前贤在分词、词性标注方面进行了诸多有意义的探索,而在词义标注方面研究相对比较薄弱。
2.1.1 研究对象
古代汉语的研究对象是传世文献语料,对于这些封闭性语料,可以采用穷尽统计法。在对单部著作进行统计的基础上进行综合的统计、分析。该方法首先需要确定研究对象涉及的范围,然后就这一范围内的有关研究对象的语料进行统计
[21]
。对于义项的研究工作我们更应该重视语料的穷尽性、提倡定量研究和定性研
究相结合。广泛占有材料,将看法建立在翔实的语言事实基础之上。陈克炯[14]指出,“选好有代表性的断代系列专书,全面系统地、一字不漏地研究每部著作的词汇,剖析每个词在书中出现的义位,这是一项十分艰巨的工程,但只有把这项工程做好了,汉语词汇的发展脉络才能清晰的显现出来”,文献的选择对实例库的建设有着重要的意义,我们选取《春秋左传》为研究对象,《春秋左传》是上古汉语语言资料中被公认的最具代表性的材料之一,代表了先秦历史散文的最高成就,居于“散文之宗”的特殊历史地位,是我国两千多年来汉语书面语言基本格局的最大源头,在先秦经籍群体中,字数最多,词汇总量最大。瑞典汉学家高本汉[22]认为:
“支那学”家用来研究古代中国的各种文件,没有一种比《春秋左传》更重要。这是中国古代文化第一次成熟时期的主要史料……对于语言学者,此书很重要,因为(它)是个范围很大的文件,里边用词极丰富而复杂,文章极有力而美妙。总之,《春秋左传》是中国文学的杰作之一,为中国人民所爱读爱研究的。
因而从《春秋左传》入手进行考察,对先秦断代词汇的研究具有重要的价值。我们以此为蓝本,运用计算语言学方法做好先秦汉语词汇的意义标注工作,以期能够推动古代汉语词汇层面处理的信息化进程。
本文所采用的《春秋左传》文本以阮元校勘的《十三经注疏》本为底本,以杨伯峻[23]的《春秋左传注》为主要参照本,在此基础上建立了《春秋左传》电子文本。此外,我们并没有把《春秋经》作为研究对象,因为其自成体例,作者和成书年代都不同于《春秋左传》,是一部和《春秋左传》不同的文献。
8
第2章 古代汉语词义义项分析
2.1.2分词、词性标注
为使所建设的语料库真正成为后续研究的知识库,我们从古代汉语语言学特点出发,对采集到的语料进行了最基本的词汇层面的处理:分词和词性标注。经人工校对后,在词语切分、词性标注方面具有较高的正确率。以下是基本的分词规范和词性标记集,均从古代汉语语言学特点出发,面向信息处理角度而制定。具体标示内容详见表2.1:
表2.1 古汉语词类标注集
序号 1 名词 名称 普通名词 人名 地名 方位名词 时间名词 2 动词 使动用法 意动用法 为动用法 3 4 5 6 7 8 9 10 11 12 13 14 形容词 数词 量词 代词 介词 连词 助词 副词 语气词 拟声词 兼词 标点 标注集 n nr ns f t v sv yv wv a m q r p c u d y s j w 解释 noun首字母 noun首字母+人(ren)首字母 noun首字母+space首字母 “方”的声母 time首字母 verb首字母 “使”的声母+verb首字母 “意”的声母+verb首字母 “为”的声母+verb首字母 adjective首字母 number第2个字母 quatity首字母 pronoun的第2个字母 prepositional的首字母 conjunction的首字母 auxiliary的第2个字母 adverb的第2个字母 “语”的声母 sound的第1个字母 “兼”的声母 参考北大现代汉语标记集 共有21个词性标记,该标记集充分考虑了词的动态功能,如词的使动、意动用法标记的确定,从而也提供了较多的句法信息。 2.1.3《春秋左传》高频词汇基本信息的统计
高频也就意味着有较高的处理价值和必要性,我们以《春秋左传》为底本,在其已分词、词性标注好的前提下,统计了其高频词及其频率、词典释义个数。
(1)《春秋左传》基本字数统计
9