MOSES安装以及使用说明

2019-03-29 09:52

MOSES安装以及初级说明

作为初学者对MOSES现在也没有什么深入的了解就在这里嫌丑,浅显的介绍一下。

首先是moses的官网:http://www.statmt.org/moses/

里面资料很详细,可以下载说明文档(manual.pdf)按照文档里面的提示一步步进行,一般来说整体只要依照这个步骤就没有问题

我现在本机上安装的moses,然后又在服务器上进行的运行,所以安装经验是本机的,但是两面使用的搭配是一样的都是moses+boost+GIZA+++IRSTLM。就是操作系统不一样,本机是ubuntu,而服务器是CentOS,但是基本上的过程是一样的。

一、前期安装准备 1、Boost【ubuntu下】

apt-get install libboost1.53-all-dev 2、GIZAA++【ubuntu下】

wget http://giza-pp.googlecode.com/files/giza-pp-v1.0.7.tar.gz tar xzvf giza-pp-v1.0.7.tar.gz cd giza-pp Make

在编译后会生成三个可执行文件 · giza-pp/GIZA++-v2/GIZA++ · giza-pp/GIZA++-v2/snt2cooc.out · giza-pp/mkcls-v2/mkcls

这三个文件是在之后主要要使用的文件,可以单独把这三个文件提取出来放到一

个方便的位置,不觉得麻烦的话也可以每次键入路径,不过使用频率不算高还可以。

比如说建立tools\\ 把这三个文件放进去

可以在编译的时候直接指出GIZA++的位置,也可以在编译的时候不指出,在使用的时候再指明,我采用的是后者。 3、IRSTLM

这个我在ubuntu和centOS下都编译了,方法都很简单 1)【ubuntu下】

在编译IRSTLM之前,需要安装两个工具。使用下面的命令来安装这两个工具: $ sudo apt-get install automake $ sudo apt-get install libtool

接下来就可以安装IRSTLM了。先下载软件包,下载地址为: http://sourceforge.net/projects/irstlm/files/ 使用下面的命令进行安装: tar zxvf irstlm-5.80.03.tgz cd irstlm-5.80.03

./regenerate-makefiles.sh

./configure --prefix=$HOME/irstlm make install

这样就编译安装好了IRSTLM,记住irstlm的位置,以后用得到。 2)【centOS下】

其实在这个下面和ubuntu里面没有什么区别 step 0: sh regenerate-makefiles.sh

step 1: ./configure [--prefix=/path/where/to/install] step 2: make

step 3: make install

二、正式安装Moses【ubuntu下】

由于moses的代码均可用git下载,所以先安装git: $ sudo apt-get install git

还需要gcc, zlib and bzip2以构建moses

$ sudo apt-get install build-essential libz-dev libbz2-dev 然后就可以下载moses的代码了

git clone git://github.com/moses-smt/mosesdecoder.git 然后进入mosesdecoder目录,编译Moses:

./bjam -j4 \\ --with-irstlm=/irstlm的位置 --with-giza=/giza的位置 -j4是利用CPU是4核的进行编译 也可以./bjam --help获取帮助

如果在编译过程中遇到什么问题也许是因为一些编译必须的包没有安装成功,安装一些影响编译的包再进行编译试一下。

可以从目录下的BUILD-INSTRUCTIONS.txt获取安装的更多信息。 三、使用moses

最开始除了最后翻译一步都是在本机上进行的,但是当进行到最后一步翻译就提醒内存不够了。。所以为了不折腾最好还是一开始就在服务器上跑的好。。 在进行实验之前最好记住刚才安装的几个文件的目录,要不在进行接下来的步骤还要回去一个个找目录位置还是挺麻烦的。 P.s.这里w4tcy是我个人的用户文件夹

Moses:/home/w4tcy/moses/

因为这里主要应用的就是/scripts和/bin两个文件夹,所以可以把这两个文件夹单独提出来

/home/w4tcy/moses/scripts/ /home/w4tcy/moses/bin/

Giza++:/home/w4tcy/tools/giaz/

这个只要把上文所说的三个执行文件提出即可

IRSTLM:/home/w4tcy/tools/irstlm

这个我建议一开始就安装到这里。。我还不太清楚利用的是里面的什么。。 在这里我先使用官方提供的预料进行学习测试,因为语料使用的是官方的所以很多步骤就简单多了: 1、预料的预处理

在/home/w4tcy/建立一个corpus来存放学习集,官方网站下载学习资料 cd

mkdir corpus cd corpus

wget http://www.statmt.org/wmt13/training-parallel-nc-v8.tgz tar zxvf training-parallel-nc-v8.tgz

1)tokenisation:在预料的单词和单词之间或者单词和标点之间插入空白,然后进行后续操作。

/home/w4tcy/moses/scripts/tokenizer/tokenizer.perl -l en <

training/news-commentary-v8.fr-en.en > news-commentary-v8.fr-en.tok.en /home/w4tcy/moses/scripts/tokenizer/tokenizer.perl -l fr <

training/news-commentary-v8.fr-en.fr > news-commentary-v8.fr-en.tok.fr 2)Truecaser:提取一些关于文本的统计信息

/home/w4tcy/moses/scripts/recaser/train-truecaser.perl --model truecase-model.en --corpus news-commentary-v8.fr-en.tok.en /home/w4tcy/moses/scripts/recaser/train-truecaser.perl --model truecase-model.fr --corpus news-commentary-v8.fr-en.tok.fr

3)truecasing:将语料中每句话的字和词组都转换为没有格式的形式,减少数据稀疏性问题。

/home/w4tcy/moses/scripts/recaser/truecase.perl --model truecase-model.en < news-commentary-v8.fr-en.tok.en > news-commentary-v8.fr-en.true.en

/home/w4tcy/moses/scripts/recaser/truecase.perl --model truecase-model.fr < news-commentary-v8.fr-en.tok.fr > news-commentary-v8.fr-en.true.fr

4)cleaning: 将长语句和空语句删除,并且将不对齐语句进行处理。 /home/w4tcy/moses/scripts/training/clean-corpus-n.perl

news-commentary-v8.fr-en.true fr en news-commentary-v8.fr-en.clean 1 80 2、语言模型训练

语言模型(LM)用于确保流利的输出,在这一步使用Irstlm进行处理。 /home/w4tcy/tools/irstlm/bin/add-start-end.sh <

news-commentary-v8.fr-en.true.en > news-commentary-v8.fr-en.sb.en export IRSTLM=$HOME/irstlm; /home/w4tcy/tools/irstlm/bin/build-lm.sh -i news-commentary-v8.fr-en.sb.en -t ./tmp -p -s improved-kneser-ney -o


MOSES安装以及使用说明.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:六下数学教案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: