神经翻译笔记1. 统计语言模型之N元语法

最新推荐文章于 2023-05-21 16:05:40 发布

TimsonShi

最新推荐文章于 2023-05-21 16:05:40 发布

阅读量548

点赞数

分类专栏：神经翻译笔记文章标签： N元语法 NLP 语言模型

本文链接：https://blog.csdn.net/xacecaSK2/article/details/89199562

版权

本文主要介绍了统计语言模型在神经机器翻译中的基础，包括N元语法的计算、平滑技术、语言模型评估和处理未知词的方法。通过对N元语法的探讨，为神经翻译建立了概率模型的基础。

摘要由CSDN通过智能技术生成

文章目录

神经翻译笔记1. 统计语言模型之N元语法

神经翻译笔记1. 统计语言模型之N元语法

本系列笔记主要来自于以下三篇关于神经机器翻译（NMT）的tutorial：

[Koehn2017], Philipp Koehn, Statistical Machine Translation, Draft of Chapter 13: Neural Machine Translation , 2017.09
[Neubig2017], Graham Neubig, Neural Machine Translation and Sequence-to-Sequence Models: A Tutorial , 2017.03
[Luong2016], Thang Luong, Kyunghyun Cho and Christopher Manning, NMT Tutorial , ACL 2016

其它资料可能来自于斯坦福CS224课程、Yoav Goldberg的Neural Network Methods for Natural Language Processing和其它到时列明的课程讲义/书籍

本篇主要来自于Neubig2017，以统计语言模型为主。尽管这些概念/方法在NMT中已不太常用，但是个人感觉仍然有必要了解一下，打好基础

统计机器翻译问题的形式化定义

假设输入句子（源句子） $F$ 是一个序列：
$f_1, \ldots, f_J = f_1^{|F|}$
输出句子（目标句子） $E$ 也是一个序列：
$e_1, \ldots, e_I = e_1^{|E|}$
那么任何翻译系统都可以看成是一个函数
$\hat{E} = {\rm mt}(F)$
其接受一个输入 $F$ 作为源句子，返回一个假设 $\hat{E}$ 作为翻译结果

统计机器翻译（SMT）是通过创建一个概率模型 $P(E|F;\theta)$ 来翻译，目的是找到能最大化这个 $P$ 的目标句，即得到的 $\hat{E}$ 满足
$\hat{E} = \mathop{\rm arg\max}_EP(E|F;\theta)$
其中 $\theta$ 是模型参数，指定概率分布。通常机器翻译算法从源语句和目标语句对齐的数据源（称为平行语料）学出参数 $\theta$ 。在这个框架下，需要解决三个主要问题

建模问题：模型 $P(E|F;\theta)$ 长什么样？有什么参数？如何使参数指定概率分布？
学习问题：采用什么样的学习方法？
搜索问题：如何找到概率最大的句子？搜索最优假设的过程通常也被称为解码

逐词计算概率

在解决翻译问题之前，先看一下如何为目标句创建一个语言模型。语言模型的作用可以大致理解为，对某个给定的单词序列，计算这个序列在语言中出现的概率。对于目标句，就是要创建概率模型 $P (E)$ ，用它来评估译句的自然度，以及生成文本。形式化地说，就是计算
$P(E) = P(|E|=T, e_1^T)$
即当句子长度 $∣ E ∣$ 为 $T$ 时，第一个单词为 $e_1$ ，第二个单词为 $e_2$ ……第 $T$ 个单词为 $e_T$ 的联合概率。此外，通常会在句末添加一个表达句子结束的符号</s>，因此长度为 $T$ 的句子实际长度为 $T + 1$ ，其中 $e_{T+1} = \langle /s \rangle$ 。这样，当解码输出</s>时，就可以知道句子该结束了

但是，很难直观得到这个概率值：假设单词表大小为 $V$ ，句子长度为 $T$ ，那么一共有 $V^T$ 个可能的句子。不过，联合概率可以表示成若干条件概率的连乘。例如，

最低0.47元/天解锁文章

TimsonShi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经翻译笔记1. 统计语言模型之N元语法

这里写自定义目录标题神经翻译笔记1. 统计语言模型之N元语法统计机器翻译问题的形式化定义逐词计算概率基于记数的n元语法语言模型的评估处理未知词N元语法的扩展神经翻译笔记1. 统计语言模型之N元语法本系列笔记主要来自于以下三篇关于神经机器翻译（NMT）的tutorial：[Koehn2017], Philipp Koehn, Statistical Machine Translation, ...
复制链接

扫一扫