第3章 基于CRF模型的消歧实验
3.6 本章小结
CRF是近几年来机器学习领域非常流行的方法,特别擅长处理序列标记问题,善于将所有特征进行全局归一化,具有表达元素长距离依赖性和交叠性特征的能力,能方便地在模型中包含领域知识,进而求得全局的最优值。本章主要介绍了CRF的基本原理、特征模板的设计与选择。实验结果表明,CRF模型取得了较高的词义标注正确率。目前在自然语言处理领域,CRF模型多用于词语切分、词性标记和浅层语义分析等领域,本章尝试引入CRF模型来从实例库自动学习消歧知识,分析了特征选择与模板的构造等一系列细节问题。通过构造六个不同的模板来进行相应的实验,验证了模型在词义消歧任务中的突出表现,效果较理想。基于CRF的消歧方法避免了规则知识库的建造,但毕竟单分类器的性能有限,在下一章中,我们尝试使用多分类器集成的方法来提高消歧效果。
30
第4章 基于单分类器集成的消歧实验
第4章 基于单分类器集成的消歧实验
在第三章中,我们使用CRF模型通过学习消歧知识来自动进行消歧,取得了较好的结果。但一般来说,单从一个侧面描述词性标注知识存在一定的局限性,尤其当训练语料达到一定规模、训练过程达到一定程度之后,标注精度很难再有进一步的提高,甚至有时还会降低。正如郭永辉[36]等指出的,“当某一模型完善到一定程度后,再通过增加训练语料和训练量的办法来提高标注精度已无任何意义。”因此,本章基于机器学习的思想,采用分类器集成学习的方法,对多个分类器进行集成,以增加信息量,充分利用目标词的上下文语境,减少单个分类器的误差,进而提高消歧的效果。本章在《春秋左传》语料上进行了集成测试。通过分类器的集成性研究,使各有所长的几个分类器取长补短,充分发挥各自优势,取得了古代汉语词义消歧的良好效果。
4.1集成学习简介
传统的机器学习方法是在一个由各种可能的函数构成的空间(称为“假设空间”)中寻找一个最接近实际分类函数的分类器。单个分类器模型主要有决策树、人工神经网络、朴素贝叶斯分类器[37]等等。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类[38],以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。图4.1表示了集成学习的基本思想。图中的集成分类器包括了N个单一的人工神经网络分类器,对于同样的输入,N个人工神经网络分别给出各自的输出(O1,O2,O3?On),然后这些输出通过整合以后得到集成分类器整体的输出结果来作为最终分类[39]。
31
第4章 基于单分类器集成的消歧实验
图 4.1 人工神经网络集成示意
理论证明集成学习方法是非常有效的。Thomas G. Dietterich[40,41]指出了集成学习有效可以归为三个方面的原因:统计上、计算上和表示上
(1)统计上的原因
对于一般的学习任务,往往要搜索的假设空间十分巨大,但是能够用于训练分类器的训练集中实例个数不足够用来精确地学习到目标假设,这个时候学习的结果便可能是一系列满足训练集的假设,而学习算法之能够选择这些假设的其中之一作为学习到的分类器进行输出。然而通过机器学习的过拟合问题[37]我们看到,能够满足训练集的假设不一定在实际应用中有同样好的表现,这样学习算法选择哪个假设进行输出的时候就面临着一定的风险,把多个假设集成起来能够降低这种风险(这可以理解为通过集成使得各个假设和目标假设之间的误差得到一定程度的抵消)。
(2)计算上的原因
已经证明了在人工神经网络学习和决策树学习中,学习到最好的人工神经网络或者是决策树是一个NP-hard问题,其他的分类器模型也面临着类似的计算复杂度的问题。这使得我们只能用某些启发式的方法来降低寻找目标假设的复杂度,但这样的结果是找到的假设不一定是最优的。通过把多个假设集成起来能够使得最终的结果更加接近实际的目标函数值。
(3)表示上的原因
由于假设空间是人为规定的,在大多数机器学习的应用场合中实际目标假设并不在假设空间之中,如果假设空间在某种集成运算下不封闭,那么我们通过把假设空间中的一系列假设集成起来就有可能表示出不在假设空间中的目标假设。关于表示上的原因比较特别,进一步的说明可以参考文献[42,43]。
[42]
。
32
第4章 基于单分类器集成的消歧实验
4.2参与集成的分类器的选择原则
机器学习领域关于分类的模型和算法很多,对于进行集成的单分类器的选择我们遵循了两个主要原则:(1)单分类器的互补程度要高,其分类结果应具有多样性。因此我们尽量选用了不同类型的分类器进行集成,避免同类分类器犯同样的错误。(2)单分类器的准确率要高。单分类器的学习是集成分类器学习的一部分,对于词义消歧任务而言,更要尽量要求单分类器的准确率要高,否则势必会影响到集成的效果。
本文选用的相对词频比(RFR_SUM)模型充分考虑了上下文词的相对词频的信息,区分前后语境,未考虑到歧义字段前后语境的词性、词形等语言学信息,我们贯彻了第一条原则,使用CRF模型充分考虑利用了目标词前后语境的词性、词形等信息,并增加语言学特征以进行弥补,很明显,对集成分类器的精确度的提高有所帮助。
条件随机场模型(CRF)、最大熵模型、朴素贝叶斯、K近邻分类器等都是经过测试了的高效率模型,已广泛应用于自然语言处理的各项任务中。以上五个模型从精确度和性能上都满足选择分类器的原则,实践也证明了其用于词义消歧实验的优越。
4.3选择的单分类器及其介绍
4.3.1朴素贝叶斯(NaiveBayes)分类器
NaiveBayes算法是基于贝叶斯全概率公式的一种分类算法,它以贝叶斯定理为理论基础,是一种在已知先验概率和条件概率的情况下计算后验概率的模式识别方法。朴素贝叶斯分类算法有一个基本限制:在给定特征条件下的属性值之间必须相互条件独立,即特征项独立性假设。尽管在现实世界中,这种独立性假设经常是不能满足的,但目前许多研究和应用都表明,即使违背这种假定,它也表现出很强的健壮性。它综合考虑多个特征进行消歧,公式如下:
P(Si|C)?P(C|Si) (4.1)
P(C)C表示多义词出现的上下文,Si表示多义词的第i个义项。文献[36]实验了6个英语多义词(duty,drug,land,language,position,sentence),消歧准确率达到90%左右。[37]利用朴素贝叶斯分类器,仅仅使用词袋特征,根据窗口大小,有0,1,2,3,4,5,10,25,50,共计9类81个贝叶斯分类器。根
33
第4章 基于单分类器集成的消歧实验
据窄、中、宽,3种窗口大小,分成9大类。通过交叉验证,把数据按照8:1:1进行划分,8份用来训练,中间1份作为development集,用来对每个分类器进行评测。最后1份作为测试。作者从9类中分别选择出最优的一个分类器,进行组合投票。这样做的效果,优于直接把81个进行投票。Pedersen[44]认为应该尽可能的组合窗口大小差别比较大的分类器。
国际语义评测SemEval-2007的中英文对译选择词消歧任务(SE_CE)中,6个参赛系统有2个使用了NaiveBayes分类器[45],在词义消歧方面就表现出了很好的性能。
4.3.2 K近邻(KNN)分类模型
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。它的应用十分广泛,包括知识发现与数据挖掘、模式识别与分类、机器学习、数据压缩、多媒体数据库、文档修复以及统计学等。最近邻分类法的最显著优点是分类准确率高、泛化性能好。 4.3.3相对词频比(RFR_SUM)分类模型
曲维光[46]等提出了相对词频的概念,据此建立语境计算模型,充分利用歧义字段前后词语的词频等语境信息对组合型分词歧义进行消解。该模型不仅考虑了语境中存在的词频,而且考虑了语境中出现词语相对于整个语料词频的相对比率,用相对词频来模拟人们判断语境中出现词语对消歧的重要程度;同时又区分了语境的位置,将语境分为前语境和后语境,从而把前后语境出现的词语区分开来,提高了语境信息计算的准确性。将语境的相对词频相加的过程,类似于人们根据语境信息进行综合决策的过程。模型较好地模拟了人类分词消歧的过程,具有本真性。文献中的算法主要针对二值分类,其算法如下:
训练过程描述如下:
步骤1.选择一个大规模的语料库,经过分词系统处理,形成经过分词的语料。
34