MOSES的高级特征和功能

本文详细介绍了机器翻译工具Moses的高级特性,包括二值化短语表加载、词对词对齐输出、n-Best文件生成、最小贝叶斯风险解码、处理未知短语以及多翻译表和备选模型的使用方法,提供了参数设置和实践指导。
摘要由CSDN通过智能技术生成

一、Binary Phrase Tables with On-demand Loading

       顾名思义,就是moses具有这样一个功能:将词表(phrase table)二值化并按所需(所需要翻译的内容)载入需要的部分。这是因为一个实际的翻译系统,其phrase table通常会非常大,大到很难一次性将其载入内存。

       首先需要将标准ascii编码的phrase tables转化成二值化的格式,以下是其一个例子(标准phrase-table,有5个得分的那种):

        export LC_ALL=C

        cat phrase-table | sort | bin/processPhraseTable \

         -ttable 0 0 - -nscores 5 -out phrase-table

其中参数:

· -ttable int int string -- 最后的string表示的是要转换的phrase table名称, 如果从标准输入读取,该参数设为 '-' ,如上例所示

· -out string -- 自己设定的输出的二值化ttable前缀名

· -nscores int --ttable中打分的个数(例如这里是5)

       注意,若你的数据是UTF-8格式编码的,你需要先设定一下你的系统环境变量,即export LC_ALL=C,之后再sort(排序),当然如果你输入的phrase table是已经排序好的,可略过这一步。得到的二值化phrase table如下所示:

        phrase-table.binphr.idx 

        phrase-table.binphr.srctree

        phrase-table.binphr.srcvoc

        phrase-table.binphr.tgtdata

        phrase-table.binphr.tgtvoc

二、词对词对齐输出(Word-to-word alignment)

       在做解码的时候,有两个参数可以帮助输出最后的短语对齐信息。这两个参数分别是:

                -alignment-output-file [file]

       这个将在做完翻译(解码)之后将对其信息写入file中。

                 -print-alignment-info-in-n-best

       这个将在生成的n-best文件中,每一个结果之后都另起一行标明其对齐信息。

       在这里又要提一下上面二值化得到的5个文件了,如果在对phrase table二值化的时候,其中.scrtree和.tgtdata的两个文件将以.wa后缀结尾。

三、产生n-Best文件

       Moses自然也支持产生n-Best结果(前n个解码时搜索算法搜索到的路径)。你只需要在解码的时候指定生产的n-Best结果存储文件即可。

       例如以下是一个示例命令:

               moses -f moses.ini -n-best-list listfile 100 < in

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值