2.Seq2Seq注意力机制

最新推荐文章于 2024-03-19 22:07:00 发布

派大星的最爱海绵宝宝

最新推荐文章于 2024-03-19 22:07:00 发布

阅读量494

点赞数

分类专栏： deep学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44846755/article/details/127376839

版权

deep学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

neural machine translation by jointly learning to align and translate

对encoder-decoder扩展，既能做翻译，又能对齐（align）。

预测的目标与下面有关。1.原序列中相关位置组成的上下文，2.之前生成的目标单词。

Decoder解码器

一个RNN构成
p(y_i|y₁,…,y_i-1,x)=g(y_i-1,s_i,c_i)
s_i=f(s_i-1,y_i-1,c_i)
c_i=Σ^T~x~_j=1α_ijh_j

y_i-1是上一时刻预测的值
s_i是解码器在RNN网络当前时刻的状态
当前时刻，从编码器中获取的上下文c_i，也叫通过注意力机制计算出的当前时刻编码器的表征
word embedding输入到双向RNN中，会得h到全局上下文相关的表征h，是编码器的状态

α_ij=exp(e_ij)/Σ^Tx_k=1exp(e_ik)
e_ij=a(s_i-1,h_j)
α_ij由softmax计算，当前第i时刻解码器要去做预测，解码器第j个位置。α_ij表示当前解码器对所有编码器的注意力权重，越大表示对第j个位置上的输出所需要的程度更大；也可以理解为解码器在第i时刻对整个编码器序列的关注程度。α_ij可以看作ij两者的相互作用，由上一时刻解码器的状态s_i-1和编码器第j时刻的输出h_j，根据公式得到。每个位置上的α相加和为1。
e_ij可以称为score，表示解码器的状态和编码器每个位置上状态之间的匹配程度。

Encoder编码器

双向RNN：forward RNN和backward RNN。将两个的结果的特征拼接起来。

effective approaches to attention-based neural machine translation

全局与局部的区别：注意力是散落在编码器的所有位置上，还是一小部分上。类似于池化，平均池化可以理解为全局attention，最大池化可以理解为局部attention。

无论采用哪一类注意力机制，解码器解码时都需要上下文向量c_t，即当前这一步所依赖的编码器的信息量。

global attention

非单调对应关系一般需要用global attention
变长对齐向量a_t（variable-length alignment），变长是指大小与编码器当前时间步骤有关。
权重向量基于当前解码器的隐藏状态h_t跟编码器的每一个隐藏状态h^-_s之间的关联性。
a_t(s)=align(h_t，h^-_s)=exp(score(h_t，h^-_s))/Σ_s’exp(score(h_t，h^-_s))
score是一个基于内容（content-based）的函数，基于内容即只考虑当前解码器的状态跟当前编码器每一个状态之间的对齐性不用考虑具体位置上的。三种计算方式：
在这里插入图片描述
第二种叫乘法注意力机制，因为两个h通过W相乘的。第三种也叫加法注意力机制，计算时是Wh_t+Wh^-_s。
<基于位置/strong>（location-based）的不再考虑编码器的输出，对当前解码器的隐藏状态h_t计算：
a_t=softmax(W_ah_t)

缺点：计算量比较大，需要对原序列每个位置上计算权重，做一个加权求和。甚至一些任务，不要计算全局的。

local attention

单调的一般使用local attention，单调的类似于中文和拼音两个序列的关系。

本文中的local attention主要集中在一个很小的上下文窗口内。计算量小且容易训练。

首先在t时刻，生成一个对齐位置（aligned position）p_t，即当前位置确定一个中心位置。
以p_t为中心，左右拓宽D个单位的窗口[p_t-D,p_t+D]，计算出文本向量c_t。它的a_t是固定的，为2D+1。
Monotonic alignment（local-m）：将p_t=t，原句子和目标句子是单调对齐的。a_t可根据这个公式计算：
a_t(s)=a_t(s)=align(h_t，h^-_s)=exp(score(h_t，h^-_s))/Σ_s’exp(score(h_t，h^-_s))
Predictive alignment（local-p）：计算出p_t：
p_t=S·sigmod（v^T_ptanh(W_ph_t)）
S是原序列的长度，
a_t(s)=align(h_t，h^-_s)exp(-(s-p_t)²/2σ²)
通过使用中心为p_t、方差为σ的高斯分布，对计算出的全局的权重进行筛选，a_t被约束在了以p_t为中心的一小部分窗口内。
σ=D/2
s是一个整数，可以对编码器的位置做一个整数的索引