摘 要:
由于缺乏高质量大规模的平行语料,低资源语言对上的机器翻译研究较为落后。无监督机器翻译方法利用大量的单语语料来实现机器翻译,不再依赖于大量的平行语料,适合低资源语言的翻译场景。因此,总结无监督机器翻译研究工作。首先,重点介绍无监督机器翻译发展历程中具有里程碑意义的研究工作,阐述无监督机器翻译中常用的技术;其次,论述无监督机器翻译面临的挑战;最后,展望无监督机器翻译的发展趋势。
内容目录:
1 无监督机器翻译发展历程
1.1 词级无监督机器翻译
1.2 基于初始化、去噪自编码、回译的无监督机器翻译
1.3 利用统计机器翻译的无监督机器翻译
1.4 引入预训练的无监督机器翻译
1.5 小 结
2 预训练阶段的相关技术
2.1 跨语言词嵌入
2.2 预训练语言模型
2.2.1 BERT
2.2.2 XLM
2.2.3 RoBERTa
3 微调阶段相关技术
3.1 去噪自编码
3.2 回 译
4 面临的挑战
5 结 语
00引 言
机器翻译(Machine Translation,MT)是通过计算机自动地将源语言(Source Language,SL)转变为具有相同语义的目标语言(Target Language,TL)的过程。随着社会对机器翻译需求的增多和科技的发展,机器翻译的发展日新月异。机器翻译的发展主要经历了基于规则的机器翻译(