于丽丽先秦汉语词义消歧研究(7)

2019-03-27 18:03

第3章基于CRF模型的消歧实验

將我信聞之能平均 683 412 115 230 447 325 683 412 115 230 447 325 682 408 115 230 447 325 99.85 99.03 100.0 100.0 100.0 100.0 99.81 99.85 99.03 100.0 100.0 100.0 100.0 99.81 99.85 99.03 100.0 100.0 100.0 100.0 99.81 减少一定的复合特征，模板T5的实验结果如表3.10：表3.10 T5实验结果

词语如將我信聞之能平均 T5 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 446 325 Correct 414 677 407 115 230 444 325 P(%) 100.0 99.12 98.79 100.0 100.0 99.55 100.0 99.50 R(%) 100.0 99.12 98.79 100.0 100.0 99.33 100.0 99.47 F值(%) 100.0 99.12 98.79 100.0 100.0 99.44 100.0 99.49 模板T6的实验结果如表3.11：

表3.11 T6实验结果

词语如將我信聞之能平均 T6 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 447 325 Correct 414 679 407 115 230 446 325 P(%) 100.0 99.41 98.79 100.0 100.0 99.78 100.0 99.62 R(%) 100.0 99.41 98.79 100.0 100.0 99.78 100.0 99.62 F值(%) 100.0 99.41 98.79 100.0 100.0 99.78 100.0 99.62 注：平均值的计算方法均采用加权平均。

从上面的封闭实验测试可以看出，总体而言，CRF模型的性能是相对很稳定的。模板T3和模板T4，封闭测试取得了最好的实验结果，平均F值达99.81%。通过比较两组模板下的实验标注语料，语料个例的标注正确与错误是相同的，这也说明了在信息充足的情况下，我们所定义的语言学特征不再起作用。比较T1、T3、T5的结果，T3的F值高于T1和T5，说明在考虑相同的上下文词形、词性的特征时，扩大上下文窗口并不能提高识别的效果，反而有所降低。通过对比

第3章基于CRF模型的消歧实验

T1与T2，T5与T6，可以看出，与以往单纯利用上下文词、词性作为特征，我们增加了词语长度和目标词的读音这两个语言学特征后，召回率得到了比较大的提高，分别为：0.42%、0.15%，进而平均F值分别提高了：0.23%、0.13%。 3.5.2开放测试时特征模板实验

我们对表3中的6个模板进行了实验，模板T1的实验结果如表3.12：

表3.12 T1的实验结果

词语如將我信聞之能平均 T1 Total 179 292 176 49 99 194 141 Tagged 176 288 168 48 97 175 138 Correct 148 252 142 29 91 151 130 P(%) 84.09 87.5 84.52 60.42 93.81 86.29 94.2 86.51 R(%) 82.68 86.3 80.68 59.18 91.92 77.84 92.2 83.45 F值(%) 83.38 86.9 82.56 59.79 92.86 81.84 93.19 84.95 模板T2的实验结果如表3.13：表3.13 T2的实验结果

词语如將我信聞之能平均 T2 Total 179 292 176 49 99 194 141 Tagged 179 292 176 49 98 194 141 Correct 150 255 148 29 92 160 133 P(%) 83.8 87.33 84.09 59.18 93.88 82.47 94.33 85.65 R(%) 83.8 87.33 84.09 59.18 92.93 82.47 94.33 85.58 F值(%) 83.8 87.33 84.09 59.18 93.4 82.47 94.33 85.61 扩大一定的上下文窗口，模板T3的实验结果如表3.14：表3.14 T3 的实验结果

词语如將我信 T3 Total 179 292 176 49 Tagged 174 288 171 43 Correct 147 254 151 29 26

P(%) 84.48 88.19 88.3 67.44 R(%) 82.12 86.99 85.8 59.18 F值(%) 83.29 87.59 87.03 63.04 第3章基于CRF模型的消歧实验

聞之能平均 99 194 141 97 175 137 91 147 129 93.81 84 94.16 87.37 91.92 75.77 91.49 83.89 92.86 79.67 92.81 85.60 模板T4的实验结果如表3.15：表3.15 T4实验结果

词语如將我信聞之能平均 T4 Total 179 292 176 49 99 194 141 Tagged 179 290 176 49 98 194 141 Correct 147 255 157 30 91 160 132 P(%) 82.12 87.93 89.2 61.22 92.86 82.47 93.62 86.25 R(%) 82.12 87.33 89.2 61.22 91.92 82.47 93.62 86.02 F值(%) 82.12 87.63 89.2 61.22 92.39 82.47 93.62 86.13 减少一定的复合特征，模板T5的实验结果如表3.16：表3.16 T5实验结果

词语如將我信聞之能平均 T5 Total 179 292 176 49 99 194 141 Tagged 176 289 169 47 96 174 139 Correct 145 255 155 29 90 147 131 P(%) 82.39 88.24 91.72 61.7 93.75 84.48 94.24 87.34 R(%) 81.01 87.33 88.07 59.18 90.91 75.77 92.91 84.25 F值(%) 81.69 87.78 89.86 60.42 92.31 79.89 93.57 85.77 模板T6的实验结果如表3.17：表3.17 T6的实验结果

词语如將我信聞之能 T6 Total 179 292 176 49 99 194 141 Tagged 179 291 176 49 98 194 141 Correct 146 256 158 30 91 162 133 27

P(%) 81.56 87.97 89.77 61.22 92.86 83.51 94.33 R(%) 81.56 87.67 89.77 61.22 91.92 83.51 94.33 F值(%) 81.56 87.82 89.77 61.22 92.39 83.51 94.33 第3章基于CRF模型的消歧实验

平均 86.52 86.37 86.45 从上面的开放实验可以看出，模板T6利用上下文窗口为2的词形和词性原子特征，并加入上下文窗口为1的词形的复合特征、词性的复合特征、词形和词性信息的一元复合特征及语言学特征，词义消歧取得了最好的实验结果，平均F值达86.45%。比较T1、T3、T5的结果，T1的F值高于T3和T5，说明在考虑相同的上下文词形、词性的特征时，扩大上下文窗口并不能提高识别的效果，反而有所降低。通过对比T1与T2，T3与T4，T5与T6，可以看出，与以往单纯利用上下文词、词性作为特征，我们增加了词语长度和目标词的读音这两个语言学特征后，召回率得到了比较大的提高，分别为：2.13%、2.13%，2.12%，进而平均F值分别提高了：0.66%、0.53%，0.68%。每个特征都对标注分类有正面和反面的效果，如何选择特征是实际应用中的最重要问题之一。 3.5.3窗口对实验的影响

为了考察在相同的特征下不同的上下文窗口对消歧结果的影响，我们在开放测试时，使用上下文窗口的词、词性的原子特征、上下文窗口的词、词性的复合特征、上下文窗口的词与词性的一元复合特征，上下文窗口从1变化到3进行了实验，结果分别如表3.18~3.19：

表3.18 窗口为1时的实验结果

词语如將我信聞之能平均 L=1 Total 179 292 176 49 99 194 141 Tagged 179 292 176 49 98 194 141 Correct 150 255 148 29 92 160 133 P(%) 83.8 87.33 84.09 59.18 93.88 82.47 94.33 85.65 R(%) 83.8 87.33 84.09 59.18 92.93 82.47 94.33 85.58 F值(%) 83.8 87.33 84.09 59.18 93.4 82.47 94.33 85.61 表3.19 窗口为2时的实验结果

词语如將我信聞 L=2 Total 179 292 176 49 99 Tagged 179 290 176 49 98 Correct 146 254 160 31 91 28

P(%) 81.56 87.59 90.91 63.27 92.86 R(%) 81.56 86.99 90.91 63.27 91.92 F值(%) 81.56 87.29 90.91 63.27 92.39 第3章基于CRF模型的消歧实验

之能平均 194 141 194 141 160 132 82.47 93.62 86.42 82.47 93.62 86.19 82.47 93.62 86.31 表3.20 窗口为3时的实验结果

词语如將我信聞之能平均 L=3 Total 179 292 176 49 99 194 141 Tagged 179 290 176 49 98 194 140 Correct 146 255 147 33 92 153 131 P(%) 81.56 87.93 83.52 67.35 93.88 78.87 93.57 84.99 R(%) 81.56 87.33 83.52 67.35 92.93 78.87 92.91 84.69 F值(%) 81.56 87.63 83.52 67.35 93.4 78.87 93.24 84.84 实验结果比较L1与L2、L2与L3，发现CRF随着窗口的扩大，会带来一定的噪声影响进而影响正确率的提高，当窗口为3时，仅仅多正确标注了4个，但多错标了21个，F值下降了1.47%。这表明消歧的效果随着窗口的扩大而降低，扩大窗口的同时带来了更大的噪声，这与古汉语句子简短、句法组合简单的特点密切相关。 3.5.4实验分析

对于实验结果的分析，CRF的最好效果达到86.45%，这说明CRF在词义消歧方面有较理想的性能，尤其在我们实验中的部分词的义项个数较多的情况下。实验中我们增加了一定的语言学特征，通过不同的实验摸索了不同的特征对消歧效果的影响，并考察了上下文窗口大小对结果的影响。实验中，“信”的F值始终偏低，主要原因如下：(1)从语料方面看，意义的判别需要更大的上下文语境，简单的句子字面信息反映不出该词的实际意义。因此即使是我们在人工标注的过程中，也要不断的回到原文中寻找更大的语境来判别标注词义，对这样的词词义消歧困难更大。(2)由于“信”在语料中复杂的语法特征，语料在经过人工分词和词性标注时，但仍存在一些标注失误，在一定程度上影响了实验结果。

从数据来看，CRF模型对于多分类问题表现出来较好的效果和稳定性，主要在于CRF模型具有表达长距离依赖和组合特征的能力，把所有特征进行全局归一化，进而求得最优值。此外，现代汉语词语消歧往往需要较大的上下文窗口，需考虑更多词的搭配等信息，而古汉语实验窗口的过大往往会产生更多的噪声，导致正确率的下降。

共8页:

于丽丽先秦汉语词义消歧研究(7).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档