神经翻译笔记1. 统计语言模型之N元语法

本文主要介绍了统计语言模型在神经机器翻译中的基础,包括N元语法的计算、平滑技术、语言模型评估和处理未知词的方法。通过对N元语法的探讨,为神经翻译建立了概率模型的基础。
摘要由CSDN通过智能技术生成

神经翻译笔记1. 统计语言模型之N元语法

本系列笔记主要来自于以下三篇关于神经机器翻译(NMT)的tutorial:

其它资料可能来自于斯坦福CS224课程、Yoav Goldberg的Neural Network Methods for Natural Language Processing和其它到时列明的课程讲义/书籍

本篇主要来自于Neubig2017,以统计语言模型为主。尽管这些概念/方法在NMT中已不太常用,但是个人感觉仍然有必要了解一下,打好基础

统计机器翻译问题的形式化定义

假设输入句子(源句子) F F F是一个序列:
F = f 1 , … , f J = f 1 ∣ F ∣ F = f_1, \ldots, f_J = f_1^{|F|} F=f1,,fJ=f1F
输出句子(目标句子) E E E也是一个序列:
E = e 1 , … , e I = e 1 ∣ E ∣ E = e_1, \ldots, e_I = e_1^{|E|} E=e1,,eI=e1E
那么任何翻译系统都可以看成是一个函数
E ^ = m t ( F ) \hat{E} = {\rm mt}(F) E^=mt(F)
其接受一个输入 F F F作为源句子,返回一个假设 E ^ \hat{E} E^作为翻译结果

统计机器翻译(SMT)是通过创建一个概率模型 P ( E ∣ F ; θ ) P(E|F;\theta) P(EF;θ)来翻译,目的是找到能最大化这个 P P P的目标句,即得到的 E ^ \hat{E} E^满足
E ^ = a r g max ⁡ E P ( E ∣ F ; θ ) \hat{E} = \mathop{\rm arg\max}_EP(E|F;\theta) E^=argmaxEP(EF;θ)
其中 θ \theta θ是模型参数,指定概率分布。通常机器翻译算法从源语句和目标语句对齐的数据源(称为平行语料)学出参数 θ \theta θ。在这个框架下,需要解决三个主要问题

  • 建模问题:模型 P ( E ∣ F ; θ ) P(E|F;\theta) P(EF;θ)长什么样?有什么参数?如何使参数指定概率分布?
  • 学习问题:采用什么样的学习方法?
  • 搜索问题:如何找到概率最大的句子?搜索最优假设的过程通常也被称为解码

逐词计算概率

在解决翻译问题之前,先看一下如何为目标句创建一个语言模型。语言模型的作用可以大致理解为,对某个给定的单词序列,计算这个序列在语言中出现的概率。对于目标句,就是要创建概率模型 P ( E ) P(E) P(E),用它来评估译句的自然度,以及生成文本。形式化地说,就是计算
P ( E ) = P ( ∣ E ∣ = T , e 1 T ) P(E) = P(|E|=T, e_1^T) P(E)=P(E=T,e1T)
即当句子长度 ∣ E ∣ |E| E T T T时,第一个单词为 e 1 e_1 e1,第二个单词为 e 2 e_2 e2……第 T T T个单词为 e T e_T eT的联合概率。此外,通常会在句末添加一个表达句子结束的符号</s>,因此长度为 T T T的句子实际长度为 T + 1 T+1 T+1,其中 e T + 1 = ⟨ / s ⟩ e_{T+1} = \langle /s \rangle eT+1=/s。这样,当解码输出</s>时,就可以知道句子该结束了

但是,很难直观得到这个概率值:假设单词表大小为 V V V,句子长度为 T T T,那么一共有 V T V^T VT个可能的句子。不过,联合概率可以表示成若干条件概率的连乘。例如, P ( e 1 , e 2 , e 3 ) = P ( e 1 ) P ( e 2 ∣ e 1 )

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值