AdaBoost.MH 算法 硕士毕业论文_正文(8)

2019-05-24 16:49

一种基于AdaBoost.MH算法的汉语多义词排歧方法

4 汉语AdaBoost.MH -- WSD实验

4.1 语料库

实验中的语料库来源于两个方面,一是由哈工大信息检索研究室提供的《同义词词林扩展版》和北大人民日报2000 年半年的电子版中抽取的包含多义词的语料,以下简称人民日报语料,二是国际语义系统评估使用的SENSEVAL3中文语料。 4.1.1 人民日报语料

《同义词词林扩展版》中使用的语料为北大人民日报1998 年上半年的电子版(带有词性标注),约35万词语。《同义词词林扩展版》在原来人民日报的基础上,按照《同义词词林》中定义的词的语义分类原则,在语料中的增加了词的义类信息。由于《同义词词林扩展版》中语料有限,本文从人民日报2000年半年的语料中抽取含有多义词的部分语料,按照《同义词词林》中定义的语义分类原则,进行人工义类标注。附录B中给出了部分标注语义范畴信息的语料。本文采用的人民日报语料中主要包含汉语中的6个典型的多义词,共计1581个句子,详细情况参见表4.1。

表4.1 实验中使用的人民日报语料 多义词 材料 地方 发表 为 要 到 合计 4.1.2 SENSEVAL3 中文语料

为了评测AdaBoost.MH算法的学习效果,本文还在SENSEVAL3中文语料上对学习结果进行测试。SENSEVAL是由美国计算语言学会(ACL),专门设立的一个项目,用于研究词义排歧的评测问题,是语义系统评估方面的国际性平台。该平台公开发布了一些评测语义系统的经过手工标注的具有一致性的语料库。在SENSEVAL3中新增

句子数 349 89 157 212 540 234 1581 词义数 2 3 2 2 4 4 特征数 2919 918 1449 1836 4632 2388 在《词林》中对应的义类编码

Al03、Ba06、Dk17 Cb08、Dk05、Di02

Hc11、Hi14 Kd05、Hj12

Dk10、Ed28、Gb04、Kc01 Ed11、Hf08、Hj20、Hj63

POS n n v v v v -30-

大连理工大学硕士学位论文

加了中文语料,语料格式按照SENSEVAL的统一标准格式发布。附录A中给出了部分SENSEVAL3中文语料。

SENSEVAL3中文语料共包括20个多义词,其中训练语料为793句,测试语料为380句。SENSEVAL3中文语料的详细情况见表4.2。

表4.2 SENSEVAL3中文语料情况明细 多义词 把握 包 材料 冲击 传 地方 分子 活动 老 路 没有 起来 钱 日子 少 突出 研究 运动 走 做

POS n v vn n nr q v

训练语料数 31 76 20 28 28 36 36 36 57 57 30 40 40 48 42 30 30 54 49 25

词义数 4 8 2 3 3 4 2 5 6 6 3 4 4 3 5 3 3 3 5 3

测试语料数 15 36 20 13 14 17 16 16 26 28 15 20 20 21 20 15 15 27 24 12

n vn v v b n n

a v vn Ng a an d j n nr q d v

v

n nr n Ng a ad j v a ad v n v vn n nz v vn v vn v

4.2 实验评测及结果

为评测AdaBoost.MH算法的学习效果,本文对多义词的学习结果分别在人民日报语料和SENSEVAL3中文语料上进行了测试,测试分为两部分进行,即封闭测试和开放

-31-

一种基于AdaBoost.MH算法的汉语多义词排歧方法

测试。由于本WSD系统对每个测试实例总是输出一个唯一的值,因此其召回率和正确率总是相同的。因此本文对测试结果的好坏只使用正确率作为衡量的标准。

正确率定义如下:

正确率?正确排歧的实例个数可排歧的实例个数 (4.1)

4.2.1 人民日报语料实验结果与评测

为保证测试结果的客观性,对语料进行交叉验证实验,从中随机抽取80%作为训练语料,其余20%作为开放测试语料,进行WSD实验。之后重复这个的选择过程,每次选择不同的20%作为测试语料,其余的为训练语料,取若干次实验结果的平均值作为最终的结果。

本文对人民日报中的6个典型的多义词分别进行实验。实验结果见表4.3。

表4.3 人民日报WSD实验结果

多义词 材料 地方 发表 为 要 到 平均

注:(1)表中开放测试正确率括号内的数值为获得此正确率的迭代次数; (2)实验中共进行交叉实验5次;

(3)开放测试的正确率是在封闭测试正确率达到95%以后的测试数据。

4.2.2 SENSEVAL3 中文语料实验结果与评测

为了评测AdaBoost.MH算法的学习效果,本文同时在国际标准的语义评测平台使用的SENSEVAL3中文语料上进行了WSD实验,实验情况见表4.4。

特征数 2919 918 1449 1836 2388 1 2 开放测试正确率(%)

3 4 5 平均

85.29 (70) 91.17(600) 86.76(50) 86.76(600) 85.29(150) 87.05 84.21(150) 78.94(500) 78.94(500) 78.94(600) 84.21(600) 81.05 93.10(50)

93.10(70)

89.66(50) 86.21(100) 93.10(50)

91.02

90.00(50) 82.50(600) 85.00(500) 87.50(200) 82.50(300) 85.50 83.33(50) 88.09(500) 80.95(50) 88.09(600) 83.33(500) 86.19

85.75 4632 81.48(650) 83.33(800) 87.96(500) 85.18(750) 80.55(700) 83.70

-32-

大连理工大学硕士学位论文

表4.4 SENSEVAL3 中文语料实WSD验结果

多义词 特征数 迭代次数 封闭测试正确率 开放测试正确率

386 30 100% 73.3% 把握 包 材料 冲击 传 地方 分子 活动 老 路 没有 起来 钱 日子 少 突出 研究 运动 走 做 平均

同时本文对AdaBoost.MH WSD算法和 Zheng-Yu Niu.and Dong-Hong Ji.[29] 采用的贝叶斯WSD算法进行了对比实验。为达到可比性,实验中使用的语料同为SENSEVAL3的中文语料;而且WSD模型中的上下文特征的选取也保持一致,即POS特征和一定窗口的词袋信息。实验的对比情况见表4.5。

从表4.4中的数据可以看出,训练得到的测试结果远远低于4.2.1中的实验结果。这主要是由于SENSEVAL3中给出的中文语料不够完善,进而导致数据不足、特征空间过

888 352 360 362 421 435 426 616 605 386 513 506 560 510 387 380 601 565 304

50 100 80 300 200 70 150 500 300 200 150 600 80 750 500 70 100 500 600

96.05% 100% 96.43% 100% 100% 97.22% 100% 100% 100% 100% 97.5% 100% 100% 100% 100% 96.67% 100% 100% 100% 99.19%

50% 80% 84.6% 64.28% 70.59% 75% 68.75% 61.54% 64.29% 66.67% 75% 75% 66.67% 60% 53.33% 73.33% 70.37% 62.5% 58.33% 67.68%

-33-

一种基于AdaBoost.MH算法的汉语多义词排歧方法

于稀疏的缘故。AdaBoost在给定的数据不充分、弱假设过度复杂或弱假设太弱的情况下,不能表现出很好的性能,这一点与理论一致[21]。

但是,从评测的角度来看,SENSEVAL3的中文语料还是具有它的可行性的,达到了对比的效果。4.5的实验数据表明,AdaBoost.MH算法模型的平均开放测试率高出于贝叶斯算法模型的平均开放测试率约7.28个百分点,表现出它比一般的学习算法有更强的学习能力。

表4.5 AdaBoost.MH算法与贝叶斯算法的对比实验

算法模型 AdaBoost.MH算法 简单贝叶斯算法

平均开放测试正确率(%)

67.68%

60.40%

4.3 算法中迭代次数的确定

表4.3、表4.4 的迭代次数列中的数据表明:在获得较高的正确率的情况下,算法对每个词进行学习的迭代次数是不同的。这是由于每个词所具有的特征属性不同,而且语料中所包含的句子表征该词特征属性的能力也有所不同导致的。

图4.1的数据表明开放测试结果的准确率与迭代次数的多少并不总是成正比。每个词语有适合它自己的一个最佳的迭代次数。Schapire and Singer[21] 指出迭代次数过多,AdaBoost.MH有可能发生过适应。

另一方面从系统的使用角度来看,迭代次数增多,意味着学习所需的时间和保存学习结果所需的空间的增加。因此在实际应用中,需要确立一个合适的迭代次数,也即终止迭代的条件。

实验中采用了一个简单的终止条件,即当封闭训练的正确率达到95%以后,开放测试的第二个极大值点处终止迭代过程。然后选择两个极值中的较大者的迭代次数作为最终的迭代次数。

-34-


AdaBoost.MH 算法 硕士毕业论文_正文(8).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:优酷土豆营销策划方案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: