于丽丽先秦汉语词义消歧研究(6)

2019-03-27 18:03

第3章基于CRF模型的消歧实验

其中每个fk()是观察序列x中位置为i和i-1的输出节点的特征，每个gk()是位置为i的输入节点和输出节点的特征，λ和μ是特征函数的权重，Z 是归一化因子。作为一个无向图模型表现出比HMM(隐马模型)，MEMM(最大熵隐马模型)等有向图模型更好的效果。隐马模型一个最大的缺点就是由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择，而最大熵隐马模型解决了这一问题，可以任意地选择特征，但由于其在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏置的问题（label bias），即凡是训练语料中未出现的情况全都忽略掉，而条件随机场则很好地解决了这一问题，它并不在每一个节点进行归一化，而是所有特征进行全局归一化，具有表达元素长距离依赖性和交叠性特征的能力，能方便地在模型中包含领域知识，因此可以求得全局的最优值。

本文的实验使用的CRF模型，具体采用了TakuKudo编写的工具包“CRF++0.50”进行训练和测试(下载地址：http://crfpp.sourceforge.net/)。

3.2特征的选择提取与特征模板的构造

3.2.1特征的选择提取

如何针对特定的任务为模型选择合适的特征集合，是条件随机场模型中一个非常重要的工作。特征选择主要来自多义词出现的上下文，我们的研究仅以多义词所在的句子作为上下文，从中选择和提取特征。以现有的古代汉语资源为基础，目前比较容易获取的特征主要是词法层特征，具体包括局部词、局部词性、局部词与词性、局部共现、词袋和搭配，这些特征往往也是最常用的特征。从语料库中歧义词的大量实例分析可知，上下文中前后几个词及其词性对词义选择具有重要意义。我们用“W，P”分别表示词和词性，从其原子特征和复合特征两个角度出发考察，原子特征只考虑一个观察单元，它包括当前及左右各两个位置的词，即W-2，W-1，W0，W+1，W+2，以及当前及左右各两个位置的词性标记，即P-2，P-1，P0，P+1，P+2。

仅依靠原子特征还不足以表示上下文出现的各种现象。通过对原子特征的组合可以表示出更为复杂的现象，组合后的特征我们称为复合特征。复合特征构造如下: W-2/W-1，W-1/W0，W0/W+1，W-1/W+1，W+1/W+2，P-2/P-1，P-1/P0，P0/P+1，P-1/P+1，P+1/P+2。此外我们还考虑当前及左右一个位置的词与词性的复合特征：W-1/P-1，W0/P0，W+1/P+1，示意如表3.1。

表3.1 CRF模板示例

第3章基于CRF模型的消歧实验

当前位置 ↓ ? ? ? -2 P W -1 P W 0 P W 1 P W 2 P W ? ? ? CRF本身的一个突出优点是可以任意加入与处理的对象有关的语言学特征。一些语言学特征对某些类别的多义词或者多义词的某些义项具有很高的识别率。我们在用CRF进行词义消歧时，增加了以下两个语言学特征：词语长度、词语读音。词的读音与意义常联系在一起，不同的读音，往往处在不同的意义层面，这对词义消歧具有很大的辅助作用。基于此我们考察了目标词的读音，增加了读音这一特征。此外，通过考察训练语料，发现不同的义项联系的上下文的词语长度往往差别很大，所以将上下文词语的长度也作为特征来考察。以下句为例说明：

蔡侯/nr 之/u 如/v 晉/ns 也/y 。/w

其中“如”作为目标词，上下文窗口为2的词的原子特征表示为：W-2=蔡侯，W-1=之，W0=如，W+1=晉，W+2=也。上下文窗口为2的词性的原子特征表示为：P-2=nr，P-1=u，P0=v，P+1=ns，P+2=y。上下文窗口为2的词的复合特征表示为：W-2/W-1=蔡侯/之，W-1/W0=之/如，W0/W+1=如/晉，W-1/W+1=之/晉，W+1/W+2=晉/也。上下文窗口为2的词性的复合特征表示为：P-2/P-1=nr/u，P-1/P0=u/v，P0/P+1=v/ns，P-1/P+1=u/ns，P+1/P+2=ns/y。上下文窗口为1的词与词性的一元复合特征：W-1/P-1=之/u，W0/P0=如/v，W+1/P+1=晉/ns。

根据我们所提取的特征，如此定义token：包含5列，分别是词、词性、词语长度、词语读音、标记。其中为了减少人工标注的工作量，只标记出多义词的读音，其他上下文词的读音均被标成“Other”。标记的定义是：对于句子中的除目标词外的其他词，标注为X，对于目标词，标注为词义。表3.2是实验中使用的“將”的一个训练文件的样本：

表3.2 CRF标记举例

词语文王將死，與之璧词性 nr d v w v r n 词语长度 4 2 2 2 2 2 2 词语读音 Other Jiang1 Other Other Other Other Other 标记 X 表时间，将要 X X X X X 21

第3章基于CRF模型的消歧实验

3.2.2特征模板的构造

根据原子特征、复合特征、再辅之于部分语言学特征可以构造若干特征模板，特征模板的作用就是为特征函数的生成提供一个统一的模式，通过特征模板的使用可以方便地获得我们所需要的所有特征函数。为了考察不同特征的作用，本章设计6个模板(T1-T6)，见表3.3(表中的“∪”表示取并集)：

表3.3 实验模板

模板 T1 T2 T3 模板的含义上下文窗口为1的词、词性的原子特征∪词、词性的复合特征∪词与词性的一元复合特征 T1∪当前词的语言学特征上下文窗口为2的词、词性的原子特征∪上下文窗口为2的词、词性的复合特征∪上下文窗口为1的词与词性的一元复合特征 T3∪当前词的语言学特征上下文窗口为2的词、词性的原子特征∪上下文窗口为1的词、词性的复合特征∪上下文窗口为1的词与词性的一元复合特征 T5∪当前词的语言学特征 T4 T5 T6 3.3 实验数据

本文使用先秦典型文献《春秋左传》语料作为实验语料，该语料已经过初步的分词和词性标注。选取了“將”、“我”、“如”、“信”、“聞”、“之”、“能”七个高频多义词作为实验对象，首先根据《春秋左传详解词典》提供的词义信息，把握好面向计算机的词义区分的颗粒度，确定出多义词的各个义项，其各个词的义项个数如表3.4：

表3.4多义词义项个数统计

词义项个数如 8 將 8 我 3 信 8 聞 4 之 8 能 5 然后抽取包含目标词的句子，人工标注词的具体词义。实验时，划出70%的例句作为训练，余下的30%作为开放测试，具体见表3.5：

表3.5 多义词语的基本统计信息

词语义项1 义项2 如 302 165 將 81 715 我 248 120 22

信 80 12 聞 7 12 之 225 90 能 422 12 第3章基于CRF模型的消歧实验

义项3 义项4 义项5 义项6 义项7 义项8 总句数 Baseline(%) 17 10 79 12 4 4 593 101 14 19 37 4 4 975 220 588 2 3 1 11 34 21 164 308 2 329 3 3 219 64 12 25 641 3 2 27 466 50.84 73.63 42.05 48.98 92.93 35.05 90.07 表中Baseline为多义词全部取最高频义项时的标注正确率。 3.4 评测指标

与自然语言处理研究的其他问题一样，系统评测也是词义消歧技术研究的重要环节之一。国际计算语言学联合会(ACL)词汇兴趣小组早在1997年就开始组织关于词义消歧的公共评测任务，即SENSEVAL评测。SENSEVAL评测至今已举办三次，大大推动了词义消歧任务的研究进展。该评测的主要指标为词义消歧的准确率(P)、召回率(R)、覆盖率(COV)和F值。因此我们为与其接轨，借鉴了该各项指标，主要内容计算公式如下：

正确率(P)=系统输出中正确标注词数/系统输出的标注总数量；

召回率(R)=系统输出中标注正确词数/金标语料中全部正确的标注词数；所谓的“金标语料(gold standard corpus)”是由人工标注或校队的质量很高的评测集的标准答案语料。

F值=2*P*R/(P+R)。

3.5 条件随机场实验

我们分别进行了封闭和开放测试实验。封闭测试，指的是运用从训练语料中获取的数据(模型参数或规则)来处理训练语料本身，目的是对模型的性能有初步了解。而开放测试是运用从训练语料中获取的数据来处理训练集之外的语料，目的是检验知识的覆盖能力。具体实验数据如下。 3.5.1封闭测试时特征模板实验

我们对表3.3中的6个模板进行了实验，模板T1的实验结果如表3.6：

表3.6 T1的实验结果

词语 T1 Total Tagged Correct 23

P(%) R(%) F值(%) 第3章基于CRF模型的消歧实验

如將我信聞之能平均 414 683 412 115 230 447 325 414 683 412 115 229 438 325 412 661 397 111 229 430 321 99.52 96.78 96.36 96.52 100.0 98.17 98.77 97.90 99.52 96.78 96.36 96.52 99.57 96.20 98.77 97.52 99.52 96.78 96.36 96.52 99.78 97.18 98.77 97.71 模板T2的实验结果如表3.7：表3.7 T2的实验结果

词语如將我信聞之能平均 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 447 325 Correct 412 663 397 111 230 438 321 T2 P(%) 99.52 97.07 96.36 96.52 100 97.99 98.77 97.94 R(%) 99.52 97.07 96.36 96.52 100 97.99 98.77 97.94 F值(%) 99.52 97.07 96.36 96.52 100 97.99 98.77 97.94 扩大一定的上下文窗口，模板T3的实验结果如表3.8：表3.8 T3 的实验结果

词语如將我信聞之能平均 T3 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 447 325

Correct 414 682 408 115 230 447 325 P(%) 100.0 99.85 99.03 100.0 100.0 100.0 100.0 99.81 R(%) 100.0 99.85 99.03 100.0 100.0 100.0 100.0 99.81 F值(%) 100.0 99.85 99.03 100.0 100.0 100.0 100.0 99.81 模板T4的实验结果如表3.9：

表3.9 T4实验结果

词语如 T4 Total 414 Tagged 414 Correct 414 24

P(%) 100.0 R(%) 100.0 F值(%) 100.0

共8页:

于丽丽先秦汉语词义消歧研究(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档