AdaBoost.MH 算法 硕士毕业论文_正文(7)

2019-05-24 16:49

大连理工大学硕士学位论文

3 上下文特征的选择

上下文是提供多义词词义信息的唯一途径,换句话说,所有词义排歧的工作都有赖于多义词上下文所提供的词义排歧知识。在以往的研究方法中,上下文特征的选取主要集中在局部上下文选择,即在多义词上下文的一定窗口大小内进行选择,窗口大小可以从几个词到整个句子。选取的信息主要为词袋信息和POS信息。

信息选取的过少或者训练数据不足,会导致特征空间的数据稀疏性,进而影响学习效率和排歧正确率。为有效获取 AdaBoost.MH 算法学习所需要的多义词上下文中的知识源,本文在采用传统的词性标注、局部搭配序列等知识源的基础上,新加入了一类新的知识源 —— 语义范畴。通过实验验证了,语义范畴信息不仅能有效地减少了特征空间的稀疏性,而且对加速算法效率和提高词义排歧正确率方面都有一定的提高。

本文采用的语义范畴信息的规范,来源于《同义词词林》[28]中定义的词的语义分类原则。

在实际的应用中,把词义在文本中出现的上下文规定为在这个词前后 d 个位置的范围,?d称为考察的上下文窗口。在本文中,考察的上下文窗口为?3 。

3.1 相邻词的词性标注(POS)

词性标注资源共使用以下7个特征:

p?3,p?2,p?1,p0,p?1,p?2,p?3其中p?i(p?i)代表多义词w左(右)边起第i单词所对应的词性,p0代表多义词w所对应的词性。

例如,为区分“材料”一词在下面句子中的词义;

以/p/Kb05 树叶/n/Bh11 、/wp/-1 彩布条/n/Bq01 和/c/Kc01 香烟盒纸/n/Bp17 为/v/Ja01 材料/n/Ba06 的/u/Kd01 贺卡/n/Bp18 ,/wp/-1 做工/v/Hj21 虽/c/Kc04 简/a/Ed37 ,/wp/-1 其/r/Ba10 情/n/Df04 却/d/Ka33 浓/a/Eb12 。/wp/-1

例句(1)

上下文中包含的POS资源有:

p?3?c,p?2?n,p?1?v,p0?n,p?1?u,p?2?n,p?3?wp-25-

一种基于AdaBoost.MH算法的汉语多义词排歧方法

3.2 局部搭配信息

局部搭配Ci,j指多义词w上下文中局部的连续的单词序列信息。i,j分别代表多元序列的起始和结束位置。

本文实验中采用的多元信息主要包括以下9个特征:

C?1,?1,C1,1,C?2,?2,C2,2,C?3,?3,C3,3,C?2,?1,C?1,1,C1,2

其中,C?1,?1,C1,1,C?2,?2,C2,2,C?3,?3,C3,3为多义词上下文中传统的词袋信息。其他的

C?2,?1,C?1,1,C1,2三种信息为多义词上下文中的相邻多元信息。对于例句(1),获取的

局部搭配包括:

“C?1,?1?为” 、“C1,1?的”、 “C?2,?2?香烟盒纸”、“C2,2?贺卡”、 “C?3,?3?和”、“C3,3?,”、“C?2,?1?香烟盒纸_为”、“C?1,1?为_的”、 “C1,2?的_贺卡”

3.3 语义范畴信息

上下文中词汇的语义范畴大体上确定了这个上下文的语义范畴,并且上下文的语义范畴可以反过来确定词汇的那一个语义被使用[6]。词汇的语义范畴信息一般都由义类词典或带有主体范畴的词典给出。Walker和Yarowsky在词义消歧的研究中分别提出了基于义类辞典的消歧算法。 3.3.1 《同义词词林》简介

《同义词词林》[28]是当前汉语信息处理中的一部机器可读的一类词典。《同义词词林》的编撰者根据汉语的特点和适用原则,确立了词的语义分类原则:以词义为主,兼顾词类,并充分注意题材的集中。全书把词义分为大、中、小类三级,共分为12个大类,94个中类,1428个小类。它描述了一个由上到下,由宽泛概念到具体词义的语义分类体系,并将所收的词按词义分门别类组织在其中。与此分类体系相对应的是一个词义的编码体系,其描述如下:

〈词义编码〉::=〈大类〉〈中类〉〈小类〉 〈大类〉::=〈大写英文字母〉 〈中类〉::=〈小写英文字母〉 〈小类〉::=〈数字〉〈数字〉

-26-

大连理工大学硕士学位论文

在小类下面再以原则划分词群,每个词群以一标题立目,共3925个标题词,将小类下的词群用两位阿拉伯数字表示。如:词“觉悟”具有的一个语义码为“Ga15”,表示一种心理状态,其意义是“醒悟 懂事”。义类代码“Ga15”在《同义词词林》中表示为:

Ga15 醒悟 懂事

醒悟 觉悟 省悟 觉醒 清醒 醒 如梦清醒 …… 懂事 记事儿 开窍 通窍

在“Ga15”中有两个词群,一个词群由“醒悟”的词组成集合,另一个词群由表示语义“懂事”的词组成的集合。因此“觉悟”更深入一层的语义代码为“Ga1501”。

词典中给每个指定的词一个或多个语义码。如:词“觉悟”具有的一个语义码为“Ga15”,词“材料”有三个语义码,分别为:“Ba06”、“Dk17”和“Al03”。

《同义词词林》的语义体系可以从图3.1中看出。

图3.1 《同义词词林》语义分类体系图

Fig 3.1 The semantic categorization system of 《TONY YI CI CI LIN》

《同义词词林》中以词的词义作为收词单位,多义词按其词义分别收入不同的词群,包括词、词组、成语及少量俗语,共收词五万余个。其中词的分布见表3.1。

-27-

一种基于AdaBoost.MH算法的汉语多义词排歧方法

表 3.1 《词林》中多义词的分布情况表 一字词 二字词

一个义类 二个义类 三个义类 三个义类以上 总数 1973 833 397 571 3774 28154

3837 999 5669

572 96 1065

118 6 695

歧义比例 48.0% 32681 16.0% 13698 9.0% 50154 14.8%

二字以上词 12597

42724 总计

由上述统计数据可以看出:《词林》中共收入单义词42724个,多义词7370个。并且可知:

5) 汉语中多义词占所有词的14.8%

6) 越短的词歧义程度越高,单字词为48%,二字词为16%,二字以上词为

9%。

3.3.2 对《同义词词林》中未登录词的处理

真实语料中有些词没有收录到《同义词词林》中,称为未登录词。据统计:1990年全年《人民日报》中常用词11730条,其中只有7482条在《同义词词林》中出现(占63.8%)。因此《同义词词林》中未登录词的处理,是能否更好使用《同义词词林》这部机器可用义类词典,帮助汉语字眼语言处理研究的关键。

使用72兆字节的大规模语料库,对《同义词词林》中的未登录词进行调查。从大规模语料库中统计得出所有未登录词,然后按其出现的次数排列,然后根据出现次数将未登录词依次加入《同义词词林》。如“企业”、“建设”、“科技”等为其中一些高频未登录词。增加未登录词在《同义词词林》中对应的义类代码时采取了下列措施:

1) 利用未登录词在《现代汉语词典》中的释义文本; 2) 利用未登录词的同义词或同类词; 3) 利用《同义词词林》的分类体系。 图3.1 给出了这一工具的用户界面。

此工具还包括对语料进行语义范畴标注的功能。利用这一工具,已经向《同义词词林》中加入了未登录词21200个,词义22627个。为《同义词词林》在大规模正式文本的词义标注的研究奠定了基础。

-28-

大连理工大学硕士学位论文

图3.2 向《词林》中添加新词的示意图

Fig. 3.2 Illustration of adding new words into 《CI LIN》

3.3.3 语义范畴信息的选取

实验中考虑的语义范畴信息主要包括以下6个特征信息:

d?3,d?2,d?1,d?1,d?2,d?3其中d?i(d?i)代表多义词w左(右)第i单词所对应的语义码信息。 例如,对于例句(1),获取的语义信息包括以下特征:

d?3?Kc01,d?2?Bp17,d?1?Ja01,d?1?Kd01,d?2?Bp18,d?3??1其中“Kc01”、“Bp17”等为相应词汇的语义码。

-29-


AdaBoost.MH 算法 硕士毕业论文_正文(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:优酷土豆营销策划方案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: