融合统计机器翻译特征的蒙汉神经网络机器翻译技术

融合统计机器翻译特征的蒙汉神经网络机器翻译技术

杜健  内蒙古大学
【摘要】: 随着机器翻译的发展,统计机器翻译已经进入瓶颈期很难有所提高,因此研究人员逐步将研究目光投向神经网络机器翻译方向。神经网络机器翻译也在大规模语料上取得了很好的翻译效果,而对小规模语料的神经网络机器翻译研究甚少。但是作为新的机器翻译方法它也存在一些限制:(1)神经网络机器翻译为了降低训练的复杂度通常会将词典的大小限制到一个特定的范围内,从而导致严重的未登录词问题,这个问题严重影响了翻译效果;(2)神经网络机器翻译的解码缺乏保证源语言词都被翻译的机制从而倾向于短的翻译结果;(3)神经网络机器翻译不能很好的利用语言模型。基于以上原因,本文在小规模的蒙汉平行语料上实现了神经网络机器翻译,并提出通过统计机器翻译中的特征来缓解神经网络机器翻译中的问题。首先本文搭建了基于注意力的蒙汉神经网络机器翻译系统;其次,本文提取了统计机器翻译特征:翻译模型,词反馈信息以及语言模型,并定义了其特征函数;第三,本文通过蒙汉平行语料利用GIZA++建立了蒙汉对齐词典,利用IRSTLM对汉文建立了语言模型;第四,本文将已经建立的蒙汉对齐词典、语言模型以及词反馈信息通过对数线性模型融入到基于注意力的神经网络机器翻译的解码中从而处理神经网络机器翻译中的限制;最后,本文针对神经网络机器翻译中的未登录词问题提出了在翻译过程中处理和翻译后处理的两种处理方法,大幅度减少了神经网络机器翻译中的未登录词。实验结果表明,通过融合统计机器翻译特征的蒙汉神经网络机器翻译明显地提升了翻译质量,BLEU值提高至30.66,句子长度由16.7个词提升至19.1个词,并处理掉了神经网络机器翻译中86%的未登录词。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值