目录
机器翻译概念
即通过计算机将一种语言的文本翻译成另一种语言,以解决语言屏障的问题的一种方法。
机器翻译技术的发展
机器翻译的研究经历了以下三个阶段的发展。
基于规则的方法
出现在机器翻译早期研究,主要是根据语言专家编写的翻译规则进行翻译,是一个机械式的过程,受限于人工编写规则的质量和数量,费时且不容易在不同语言间转换。
基于统计的方法
20世纪90年代被提出,主要从平行语料种挖掘不同语言的词语间的对齐关系,基于对齐关系自动抽取翻译规则。一个典型的统计机器编译包含以下三个部分。
(1)翻译模型:负责估算单词,短语间互相翻译的概率。
(2)调序模型:对翻译后的语言片段排序进行建模。
(3)语言模型:用于计算生成的译文是否符合目标语言的表达习惯。
统计翻译模型,通过使用双语平行语料库为译文的目标语言文本的语料库,作为训练数据。减少了人工参与,模型本身和训练过程间的语言无关性,大大提升了性能和使用范围。
基于神经网络的方法
2016年9月,谷歌翻译上线中英神经网络模型,效果明显,到2017年5月,已支持41对上虞翻译模块,超50%的翻译流量已由神经网络模型提供。神经网络同样需使用平行语料库作为训练数据,但神经网络是一个整体的序列到序列的模型。涉及以下步骤:
(1)首先,将源语言和目标语言的词语转化为向量表达。
(2)其次,用循环神经网络对翻译过程进行建模。即用神经网络作编码器,将输入序列编码为一个向量表示,再用一个神经网络作译码器,将向量解码为输出序列。
目前神经网络翻译模型已有很多新的改进,如LSTM、注意力机制、训练目标改进、无平行语料训练等。
机器翻译的应用
2017年5月数据显示,谷歌翻译每天都在为五亿人次提供翻译服务。微软、搜狗、百度、网易等国内外公司也在不但优化自己的机器翻译服务,供大众使用。机器翻译目前在很多场景下可起到很好的辅助作用。如出国旅行时,各种手机APP的拍图翻译可是人们方便快捷的看懂异国的路边或菜单等,百度白专门推出了便携式自动翻译机。
但目前而言,机器翻译的应用仍处于简单理解其他语言,辅助翻译等方面,其效果还难以达到人类翻译的水平,离大规模替代人工翻译还差不小距离。