自然语言处理 第八章 机器翻译复习

机器翻译概述

任务描述:利用计算机把一种语言(源语言, source language) 翻译成另
一种语言(目标语言, target language)的技术

发展历程:
基于规则的机器翻译系统:需要经过词法分析,句法分析等诸多步骤各步需要的规则均需要人工编写。

基于统计的机器翻译系统:用概率统计方法分不同翻译粒度和不的同翻译方法

  • 基于词的翻译方法
  • 基于短语的翻译方法
  • 基于层次化短语方法
  • 基于树的方法

端到端的翻译架构

  • GNMT
  • ConvS2S
  • Transformer

典型神经机器翻译模型

神经机器翻译 ( Neural Machine Translation, NMT

机器翻译问题是序列生成问题,可采用“编码-解码” 框架建模
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

神经机器翻译系统相关技术

  1. 罕见词处理技术
    sub-word unit
  2. 解码策略及改进
    机器翻译系统相关技术:
    • beam search
    • coverage penalty
    • 推敲网
    • 非自回归解码
  3. 系统鲁棒性

罕见词处理技术(词表受限问题)

在神经网络机器翻译模型中,由于考虑到计算的复杂度问题,都使用一个受限词表,这样会导致很多单词成了词表外的OOV词,而这种OOV词在翻译时很难处理并且打破了句子结构,增加了语句的歧义性,因此,如何处理罕见词成为NMT领域非常必要的研究问题

解决办法

• subword 方法
• 词语/字混合方法(Mixed Word/Character Model)
• UNK处理
• 扩大词表
• 固定词表 + 动态的词表

subword 方法

基本思想:将单词划分为更小的单元,如“older”划分为“old” 和 “er”,这些单元能组成其他词汇。由子词构成的词汇表可以有效的缓解机器翻译中的词表受限问题

获取subword词表的流程(learn-bpe)

  1. 准备语料,分解成最小单元,比如英文中26个字母加上各种符号,作为原始词表
  2. 根据语料统计相邻字符对出现的频次
  3. 挑出频次最高的相邻字符对,比如“t”和“h”,合并组成“th”,加入词表,训练语料中所有该相邻字符对都进行融合
  4. 重复2和3操作,直至词表中单词的数量达到期望,或下一个最高频的字节对出现频率为1
beam search

Greedy Search 解码:方法:每个step选择概率最大的词作为输出
Beam Search 解码:每个step选择概率最大的K个 词作为输出

比如下图,每次选两个词
在这里插入图片描述

coverage penalty (翻译覆盖率问题)

基本思想:建立coverage 向量,在解码的过程中,保持对attention信号持续关注和利用,以此来解决attention信号之间的独立问题

推敲网络(Deliberation Network)

目前的序列生成方法往往通过一轮前向计算解码出整个目标序列,缺乏推敲过程。本文引入一个推敲网络进行双轮解码以模拟人类书写文章的过程,即先解码出一个基础序列,然后对其进行斟酌推敲形成最终的目标序列

非自回归模型

非自回归 (Non-Autoregressive Translation, NAT)模型打破了生成时的串行顺
序希望一次能够解码出整个目标句子,从而解决AT模型的问题。
NAT模型将解码问题建模为:
在这里插入图片描述

系统鲁棒性

鲁棒性问题:神经网络能够对全局上下文进行建模,但对于局部变化过于敏感,提升系统的容错性,一致性(鲁棒性)对用户体验十分重要
解决方法:可采用对抗学习等训练方法提升系统的鲁棒性

核心思想:对于噪声输入生成与原始输入相同的输出译文以提升模型的鲁棒性
解决方法:在输入端加入微小的扰动,用对抗学习方法使得模型不受扰动影响

低资源神经机器翻译

语料资源受限问题

神经机器翻译(NMT)性能高度依赖于平行语料的规模、质量和领域覆盖面。在中英等平行语料资源丰富的语对上,NMT表现出极好的翻译性能。然而,在平行语料匮乏的语对上,NMT的性能急剧下降;对于“小语种”语言,平行语料资源匮乏是常态。因此,如何充分利用现有数据缓解资源匮乏问题,成为神经机器翻译的一个重要研究方向。
在这里插入图片描述

多语预训练语言模型

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值