MOSES安装以及使用说明(2)

2019-03-29 09:52

news-commentary-v8.fr-en.lm.en

/home/w4tcy/tools/irstlm/bin/compile-lm --text

news-commentary-v8.fr-en.lm.en.gz news-commentary-v8.fr-en.arpa.en 经过这一步之后我们会得到一个*.arpa.en格式的语言模型文件，接下来为了程序的更快载入，使用KenLM对其进行二值化。

/home/w4tcy/moses/bin/build_binary news-commentary-v8.fr-en.arpa.en news-commentary-v8.fr-en.blm.en

我们可以在这一步之后测试一下训练的模型是否正确，运用如下的linux命令： $ echo \news-commentary-v8.fr-en.blm.en 3、翻译模型的训练 mkdir working cd working

nohup nice /home/w4tcy/moses/scripts/training/train-model.perl -root-dir train -corpus

/home/w4tcy/corpus/news-commentary-v8.fr-en.clean -f fr -e en -alignment grow-diag-final-and -reordering msd-bidirectional-fe -lm 0:3:/home/w4tcy/corpus/news-commentary-v8.fr-en.blm.en:8 -external-bin-dir /home/w4tcy/tools/giza >& training.out &

(朱老师的修改)【特别说明先退出当前目录然后进入根目录‘../’或者退出直接到根目录去用’./’】

./mosesdecoder/scripts/training/train-model.perl - root train -corpus corpus/news-commentary-v8.fr-en.clean -f fr -e en -alignment grow-diag-final-an -reordering msd-bidirectional-fr -lm 0:3:/home/trainer1/lm/news-commentary-v8.fr-en.blm.en:8 -external-bin-dir bin/ 4、Tunning翻译模型

回到corpus，下载开发集

wget http://www.statmt.org/wmt12/dev.tgz tar zxvf dev.tgz 在

Corpus内对开发集预料进行处理

/home/w4tcy/moses/scripts/tokenizer/tokenizer.perl -l en < dev/news-test2008.en > news-test2008.tok.en

/home/w4tcy/moses/scripts/tokenizer/tokenizer.perl -l fr < dev/news-test2008.fr > news-test2008.tok.fr

/home/w4tcy/moses/scripts/recaser/truecase.perl --model

truecase-model.en < news-test2008.tok.en > news-test2008.true.en /home/w4tcy/moses/scripts/recaser/truecase.perl --model

truecase-model.fr < news-test2008.tok.fr > news-test2008.true.fr 在进行了和学习集相同的处理之后，对原本的moses.ini进行调优进入working文件夹然后运行

nohup nice /home/w4tcy/moses/scripts/training/mert-moses.pl /home/w4tcy/corpus/news-test2008.true.fr

/home/w4tcy/corpus/news-test2008.true.en /home/w4tcy/moses/bin/moses train/model/moses.ini --mertdir /home/w4tcy/moses/bin/ &> mert.out & 可在最后加上--decoder-flags=\8\以使用多个线程，因为这个过程非常非常缓慢。 5、测试

可以直接运行进行单句翻译 /home/w4tcy/moses/bin/moses -f

/home/w4tcy/corpus/working/mert-work/moses.ini 当然，这样很慢，所以我们可以在进行一定的处理加快在working文件夹下进行创建 mkdir binarised-model

/home/w4tcy/moses/bin/processPhraseTable -ttable 0 0 train/model/phrase-table.gz -nscores 5 -out binarised-model/phrase-table

/home/w4tcy/moses/bin/processLexicalTable -in

train/model/reordering-table.wbe-msd-bidirectional-fe.gz -out binarised-model/reordering-table

然后将 working/mert-work/moses.ini复制到binarised-model的文件夹内，做一下改变

1. 将PhraseDictionaryMemory改为PhraseDictionaryBinary 2. 将PhraseDictionary特征的路径改为

$HOME/corpus/working/binarisedmodel/phrase-table 3. 将LexicalReordering特征的路径改为

$HOME/corpus/binarisedmodel/reordering-table 这样程序的运行就快了很多。

如果要进行全文翻译，在进行翻译前同样要把语句进行预处理这一步可以到corpus下进行

/home/w4tcy/moses/scripts/tokenizer/tokenizer.perl -l en < dev/newstest2011.en > newstest2011.tok.en

/home/w4tcy/moses/scripts/tokenizer/tokenizer.perl -l fr < dev/newstest2011.fr > newstest2011.tok.fr

/home/w4tcy/moses/scripts/recaser/truecase.perl --model

truecase-model.en < newstest2011.tok.en > newstest2011.true.en /home/w4tcy/moses/scripts/recaser/truecase.perl --model

truecase-model.fr < newstest2011.tok.fr > newstest2011.true.fr 进行翻译

nohup nice /home/w4tcy/moses/bin/moses -f

/home/w4tcy/corpus/working/binarised-model/moses.ini < newstest2011.true.fr > newstest2011.out 最后进行BLEU评分

/home/w4tcy/moses/scripts/generic/multi-bleu.perl -lc newstest2011.true.en < newstest2011.out 得到BLEU评分，整个翻译过程就结束了。

最后BLEU评分-lc是无视大小写的BLEU评分，不使用参数-lc是大小写敏感的BLEU评分

在tuning和最终test的时候参考译文的数量以及分词等预处理，语言模型是n-gram的都会影响到最终BLEU分数四、补充

1、所有training参数 1.1 基本选项

--root-dir -- 存放输出文件的根目录

--corpus -- 语料库文件名 (全路径名)，不包含扩展 --e -- 英文语料库的拓展文件 --f -- 外文语料库的拓展文件

--lm -- 语言模型: :: (选项可重复)

1.2 翻译模型设置 --alignment-factors -- --translation-factors -- --reordering-factors -- --generation-factors -- --decoding-steps -- 1.3 词汇化语法重排模型

--reordering -- 指定重排模型训练一个使用以逗号分隔的config-strings的列表, 参见FactoredTraining.BuildReorderingModel. (default distance) --reordering-smooth -- 指定参数用在训练词汇化语法重新排序模型。如果字母\跟随着常数, 平滑基于实际数量。(default 0.5) 1.4 部分training

因为MOSES是模块化的可以只使用部分功能，而使用更优异的其他方法 1. 准备数据 2. 运行GIZA++ 3. 字对齐

4. 得到词汇转换表 5. 提取短语 6. 短语评分 7. 构建重排序模型 8. 构建生成模型 9. 创建配置文件

--first-step -- 训练过程的第一步 (default 1)

共3页:

MOSES安装以及使用说明(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档