05 seq2seq和Attention

最新推荐文章于 2024-03-15 13:56:07 发布

王哈哈嘎哈呢

最新推荐文章于 2024-03-15 13:56:07 发布

阅读量227

点赞数

分类专栏：自然语言

本文链接：https://blog.csdn.net/weixin_45087321/article/details/106317202

版权

自然语言专栏收录该内容

7 篇文章 1 订阅

订阅专栏

1、seq2seq

seq2seq模型是以编码（Encode）、解码（Decode）为代表的架构方式模型。
编码（Encode）将输入序列转化成一个固定长度的向量（语义向量C）
解码（Encode）将固定长度的向量（语义向量C）转化成一个输出序列

编码方式：一般为多层LSTM
解码方式：一般为RNN、CNN等
问题：
由于seq2seq模型在编解码阶段，使用由一个不变的语义向量C来联系，编码器要将整个序列的信息压缩进一个固定长度的向量中去，就造成
1.语义向量无法完全表示真个序列的信息
2.最开始输入的序列容易被后输入的序列给覆盖掉，会丢失很多重要的信息，在长序列上表现的尤其明显。
这里引入Attention

2、Attention

在编码时：
例如：输入C
y1 = f（C）
y2 = f（C，y1）
y3 = f（C，y2）
也就是说无论生成哪个单词，y1y2y3对生成某个目标单词yi的影响都是相同的，没有注意力集中

Tom chase Jerry。Encoder-Decoder框架逐步生成中文单词：“汤姆”，“追逐”，“杰瑞”。

在翻译“杰瑞”这个中文单词的时候，分心模型里面的每个英文单词对于翻译目标单词“杰瑞”贡献是相同的，很明显这里不太合理，显然“Jerry”对于翻译成“杰瑞”更重要，但是分心模型是无法体现这一点的，这就是为何说它没有引入注意力的原因。

没有引入注意力的模型在输入句子比较短的时候问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，可想而知会丢失很多细节信息，这也是为何要引入注意力模型的重要原因。

如果引入Attention模型，在翻译不同的单词时，其他单词对要翻译不同的单词有不用的影响力

由固定的语义向量C换成根据当前输出单词来调整加入注意力变化的语义向量Ci
如图引入注意力机制的seq2seq框架
在这里插入图片描述
例如：
当不引入Attention时
C =（Tom,0.3）(Chase,0.2) (Jerry,0.5)
当引入Attention时
C汤姆 = g（0.6 * f2（‘Tom’），0.2 * f2（‘Chase’），0.2 * f2（‘Jerry’））
C追逐 = g（0.2 * f2（‘Tom’），0.7 * f2（‘Chase’），0.1 * f2（‘Jerry’））
C杰瑞 = g（0.3 * f2（‘Tom’），0.2 * f2（‘Chase’），0.5 * f2（‘Jerry’））
其中，f2函数代表Encoder对输入英文单词的某种变换函数，比如如果Encoder是用的RNN模型的话，这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值；g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数，一般的做法中，g函数就是对构成元素加权求和，即下列公式：