AdaBoost.MH 算法 硕士毕业论文_正文(4)

2019-05-24 16:49

一种基于AdaBoost.MH算法的汉语多义词排歧方法

For all senses sk of w do

Score (sk) =

?vcinc?(t(sk),vj)

End

Choose s'?argmaxskscore(sk)

这种算法的一个问题是,一般的主题范畴并不适合于特殊领域。Yarowsky提出了一个基于贝叶斯分类器的变种算法来完成排歧处理。 1.2.3 无指导的排歧方法

由于有指导的学习方法依赖于人工标注的语料,要求大量的人工劳动,并且由于标注规模有限,存在严重的数据稀疏问题,因此现在许多学者致力于研究无指导的学习算法。

无指导的学习过程是具有隐含变量的学习过程,学习过程依赖的训练集是不带词义标记的语料库。如自举的无指导方法、基于词典的无指导方法、基于双语语料库的无指导方法和自动聚类的学习方法。 1.2.3.1 自举的无指导的学习方法

自举是Hearst[14]提出的一种减少人工标注语料数量的词义排歧的学习方法。首先手工标注一个初始的语料集,并用这些知识标注新的实例。如果标注的新实例具有较高的可信度,则将新标注的实例收入例子集,重新学习统计数据。实验表明,每个词至少要有10个实例,同样需要大量的手工标注的工作。

Yarowsky[15]也给出了一种自举的学习方法.算法的核心是建立在一个搭配一个词义或一个话题一个词义的约束下的自举过程。算法主要有以下几步完成:

1) 在大规模语料库中找出所有多义词的例子;

2) 对于每个词的所有可能的词义,识别出表示这些词义的种子的例子; 3) 使用前面介绍的决策表算法进行学习,得到用于词义排歧的决策表; 4) 将决策表应用到整个例子集,重新对多义词的例子进行标注; 5) 使用一个话题一个词义的约束,对决策表进一步扩充; 6) 重复3-5直到训练参数保持稳定。

1.2.3.2 基于双语语料库的无指导学习算法

Gale[16]提出从对齐双语语料库中学习词义排歧知识的方法。 如:多义词“sentence”有两个词义:(1)法律上的“判刑”,(2)语法上的“句子”。可以从对齐的双语语料库中知道该多义词在当前的句子中被翻译成那个义项。这种不用人工标

-10-

大连理工大学硕士学位论文

注语料,通过使用对齐的双语语料库,就能获得大量的该多义词的排歧实例。Dagan提出了使用后一种语言的语料库的统计数据,学习前一种语言的词的排歧方法。利用一个多义词不同词义对应不同目标词这一特性,首先从源语言进行句法分析,识别出词间的句法关系,通过双语词典将它们映射为另一种语言中的所有可能的句法关系,这些可能的句法关系能够从这些语言的大规模语料库中学习得到。这两种方法都存在很大的缺点,而且正确率不高。 1.2.3.3 自动聚类的学习方法

Shutze[17]采用聚类的方法避免人工的标注工作,使用了向量空间模型。首先得到一个多义词在大规模语料库中的每次出现,将它们表示为一个词向量,然后将多义词周围的词分别用上下文向量表示,则这个多义词的词向量就是这些上下文向量的质心向量。采用EM聚类算法对词向量进行聚类,将词向量分成若干个词义向量,每个向量代表一个词义,由人工区分每个向量所对应得词义。这种方法的缺点是需要人工对应各词义向量的词义,并且很难完成大规模词义排歧的工作。

1.3 面临的主要问题

目前在词义排歧问题的研究中,主要存在两个方面的问题: 1.3.1 上下文选择

上下文是提供多义词词义信息的唯一途径,换句话说,所有词义排歧的工作都有赖于多义词上下文所提供的词义排歧知识。提取这些知识的方法一般有两种:词袋(bank-of-word)的方法和提取关系信息的方法。词袋的方法就是提取目标词上下文的一定窗口范围内的词,组成一个集合。提取关系信息的方法指上下文中的信息与目标词的信息按与目标词的关系组织,这些关系包括句法关系、短语搭配关系、选择性限制关系等。因为后一种方法需要使用句法分析器,并且目前还没有达到实用,所以现在大多数方法选取上下文中信息时都采用词袋的方法。

在提取上下文的信息时,有三类上下文可供选择:局部上下文、话题上下文和领域上下文。在局部上下文选择时使用的窗口长度从几个词到整个句子。话题上下文一般确定从多义词周围的几个句子范围内获取信息,在当前,话题上下文的选择方法在词义排歧中并没有得到广泛的应用。领域上下文提供在某一领域中多义词经常表现得词义信息。如主题词表在机器翻译中发挥很大的作用,但是领域上下文信息在词义排歧中的作用还不很明显。

-11-

一种基于AdaBoost.MH算法的汉语多义词排歧方法

1.3.2 词义的划分

目前确定多义词的词义的方法是根据词典资源提供的词义信息。不同词典在划分词义时具有不一致性。词义排歧在确定词义信息时面临的一个重要问题是确定使用词义的颗粒度。许多学者发现有些词典给出的词义信息对自然语言处理来说太细,这样太细的词义给词义排歧的研究带来了困难,甚至有时连人都无法区分这些词义[4]。

1.4 词义排歧的评测方法

给定各种词义排歧的方法,很难对这些方法的结果进行比较。原因在于这些测试方法在测试条件上有很大不同,主要是测试文本类型不同和测试词的歧义程度也不相同。

不论何种排歧算法,判断正确的标准的最终因素还是人。由人事先对多义词排歧,之后将这样的结果作为评价算法排歧是否正确的标准。但不同人在手工标注时有较大的不一致性。

词义排歧结果的评测问题已经成为目前词义排歧领域所关注的问题,许多人致力于研究各种评测方法。如Church和Yarowsky[21]等希望确定词义排歧的上限和下限,但目前还没有实现。

因为词义排歧并不是任务的结果而只是一个“中间”任务,它的主要贡献在于对机器翻译和信息检索等应用领域的帮助,因此可以将词义排歧的评测放在具体的应用中。本文采用的评测方法主要是对排歧结果本身的评测。

对排歧结果本身的评测独立于应用,也称为性能评测。是目前大多数词义排歧方法采用的一种方法,方法的关键是选用不同的测试点评测排歧结果。将系统给出的词义排歧结果与标准答案比较,计算其正确率和召回率。

1.5 本文的工作

本文主要研究汉语词义排歧知识获取以及相应的排歧方法。 1)

在词义排歧的模型中引入有指导的AdaBoost.MH算法。根据在每个给定的上下文中多义词的词义的唯一确定性,对传统的适合多类多标签分类问题的AdaBoost.MH算法进行了改进,使其适合单标签分类的词义排歧问题。该方法首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则,然后通过AdaBoost.MH算法对弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。

-12-

大连理工大学硕士学位论文

2) 人工标注了3000句语料,作为有指导的AdaBoost.MH算法的训练语料。为完成标注语料库的工作,通过对大规模语料的统计,对《同义词词林》进行了扩充,新加入未登录词21200个,词义22627个。为《同义词词林》在大规模正式文本的词义标注的研究奠定了基础。

3) 给出了一种简单的终止AdaBoost.MH算法中迭代的条件。即当封闭训练的正确率达到95%以后,开放测试的第二个极大值点处终止迭代过程。然后选择两个极值中的较大者的迭代次数作为最终的迭代次数。

4) 在获取多义词上下文信息的过程中,引入了一种新的知识源。为获取多义词上下文中的知识源,本文在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴知识源的引入有助于提高算法的学习效率和排歧的正确率。

5) 给出了一种通过WWW资源自动建立适合多义词排歧的标注语料库的方法。通过实验验证得到的语料库的可用性。

-13-

一种基于AdaBoost.MH算法的汉语多义词排歧方法

2 面向WSD的AdaBoost.MH算法模型

机器学习是对具有学习能力的计算机算法以其经验不断改进其完成任务效果的研究。它是人工智能的一个领域,是知识获取的一个过程,其关键在于学习。学习是一个系统的改进,这种改进可以使该系统更有效地处理同样的工作。获取知识正是学习的本质。学习的关键是构造对目标的表示。这种表示可以是符号描述、算法描述、模拟的模型、控制过程、神经网络、图形等等。将要学习的信息提供给系统,通过分析、归纳、演绎信息,构造出对目标的表示,为新信息提供进一步学习的指导。这就是学习的过程。

我们所用到的机器学习是一种归纳学习,即对已分类的数据,通过归纳其分类的原因,产生一些概念性描述作为学习的结果。例如,通过对温度,湿度,有无风等观测结果的分析来判断是否适于打高尔夫。由归纳学习的一种算法一决策树算法,利用温度,湿度,有无风等探索性信息计算生成决策树,然后将其变换成分类准则的集合。这些分类准则即为学习的结果。

在第1部分介绍的许多学习算法,它们的准确率各不相同。我们希望每个学习算法都有较高的准确率,但这在实际中不易做到。Boosting算法是提高预测学习系统能力的有效工具,在POS[18]和文本分类[22]中得到成功应用。

Boosting算法的主要思想是把多个不太准确的弱规则合并为一个高精度的分类规则,弱规则由弱学习器(Weak Learner)产生,这些弱规则组合得到最终规则,即通过学习得到的分类规则。

2.1 基本概念

1)

学习算法

对已知数据信息通过分析、归纳其被分类的原因,生成数据特征的描述作为学习的结论。用来完成这种过程的计算机算法称为学习算法。我们把需要用Boosting方法进行改进的精度不高的算法称为弱学习算法(Weak Learner),也称为弱学习器。 2)

训练集

训练集(Training set)是已知的数据信息,即所谓弱学习算法用于获得学习结论的样本集合。它包含 N 个样本,每个样本有观测值xi和标识值yi组成,其中xi是属性值(多元指标)的一个向量,属于样本空间X;每个yi为xi的类别标识,属于一个有限标识空间Y。

-14-


AdaBoost.MH 算法 硕士毕业论文_正文(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:优酷土豆营销策划方案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: