学习笔记之机器翻译与文本摘要2

最新推荐文章于 2024-10-02 01:49:36 发布

听寒哥的话

最新推荐文章于 2024-10-02 01:49:36 发布

阅读量151

点赞数

文章标签：机器翻译深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_49528551/article/details/120584741

版权

文章目录

一、Attention机制
二、评判标准
- 1. BLUE
- 2. ROUGE
三、解码优化
- 1.压缩字典
- 2. Beam Search

一、Attention机制

在机器翻译或者文本翻译的背景下，使用Attention机制的最主要解决的问题是Seq2Seq对于长距离信息的丢失。使用Attention机制和不使用Attention机制的Seq2Seq的区别在于: 前者会使用（加权）每一个时间部的encoder的hidden_status，后者仅仅使用了最后一个时间步的hidden_status。

1. Banhdanuo_attention

简单描述Attentions机制：在decoder阶段阶段，decoder的hidden_status由两部分决定，一部分是context，一部分是上一个时间步的输出结果，当前时间步的context是encoder每一个时间步的context加权得到，权重取决于上一个时间步的hidden_status和encoder每一个时间步的context的相似度决定,公式为 $Vtanh(Ws_{i-1} + Uh_{i})$

2. Luong_attention

相对于banhdanuo_attention，Luong_attention的改进在于

参与相似度计算的不再是上一个时间步的hidden_status，而是这个时间步的伪hidden_status.
最后输出的hidden_status是由contex 和当前时间部的伪hidden_status concat得到
增加了一些相似度函数的方式：dot: $u^{T}v$ , general: $u^{T}Wv$ , concat: $Vtanh(W_2[u,v])$

3. 其他Attention

attetion的相似度函数有很多这里再补充2个：

scaled_dot_producted $\frac{u^Tv}{\sqrt{n}}$
self attention

二、评判标准

1. BLUE

BLUE的定义公式是 $exp(BP*\Sigma_{i=1}^{N} W_nlog(P_n))，$
其中N是N-gram的N，通常取4， $W_n=1/N$ .
$P_n$ 是准确率=命中/预测值的长度。
BP是惩罚系数。如果答案比预测值短，则为1，否则 = 1 - 预测值/答案长度。因为对于准确率来讲，预测值越短一般越高，为了减少漏译的情况，必须对该情况惩罚。

2. ROUGE

可以理解成召回率，ROUGE-N和BLUE的定义类似，只是将准确率替换成召回率（就是命中/答案长度）。

ROUGE-L的本质是F1，， $P = L c s (x, y) / m$ ， $R = L c s (x, y) / n$ ,
$F_L=(1+\beta^2) RP/(R + \beta^2P)$ ，
其中 $L c s (x, y)$ 代表最长公共子序列，m是预测长度，R是答案长度， $\beta=1$ 的时候就是F1
ROUGE-W是加权最大公共子序列。给连续命中的情况更高的分数。
ROUGE-S可以不在乎N-gram的连续性。