Attention 普通注意力机制详解 (二)

最新推荐文章于 2023-07-23 11:50:16 发布

帅气多汁你天哥

最新推荐文章于 2023-07-23 11:50:16 发布

阅读量676

点赞数

分类专栏： ml 总结实战项目讲解文章标签：深度学习注意力机制 seq2seq 翻译

本文链接：https://blog.csdn.net/weixin_49139876/article/details/121037623

版权

实战项目讲解同时被 3 个专栏收录

35 篇文章 1 订阅

订阅专栏

总结

20 篇文章 0 订阅

订阅专栏

3 篇文章 1 订阅

订阅专栏

注意力入门
请添加图片描述

普通注意力机制的了深入理解

在这里插入图片描述
因为GRU每次输入都是一个词一个词的输入,那么普通的Seq2seq框架就需要每个词算一遍注意力权重并对解码器输出进行bmm计算,得到加权的解码器词向量输出这样解码器的GRU每次解码的时候不是仅仅只考虑当前的一个词,而是考虑前后3个词甚至更多个词才会将这个词翻译
前向传播的结构就是这样,那么反向传播就是整个学习过程的精华,

解码器GRU

通过logsoftmax计算概率损失, 这样会知道每个词翻译错误的误差然后向下传播
知道每个词翻译的误差后 , GRU的权重矩阵分两部分学习

1.单一时间步学习

这里想说的概念是在不考虑时间步循环的gru权重矩阵中 , 它每次翻译的机制要学习的不是输入一个词反应对应的词 ,这是查字典. 而应该是输入一个词这个词是注意力机制加权后的词, 所以它一个词可以代表多个词, 那么就需要学习多个词的情况下这个词应该被翻译成什么我们把这种抽象叫做语义
不好理解就举个例子: ‘xxx早上硬不起来’ 那么如果没有前后文的情况下,这个硬不起来很难消除歧义, 可以理解为困得起不来,也可以理解为阳痿… 那么注意力机制就解决了这种情况, 它将 "昨天晚上xxx3点睡的’’ 这个高纬语义添加到这个词中了, 那么翻译的时候就不会翻译错了…

2.循环时间步学习

在这里插入图片描述

attention 机制

解码器GRU的反向传播如何学习的理解说完了, 那么非常抽象的已经讲完了到这里就异常简单了
attention机制在反向传播的过程中学习的是高阶语义
也就是
第一个循环: 0.8x我 +0.01x是你 +0.19爹
每一个词前的权重应该如何分配的
embedding作用是将输入变成词编码,本质不可能学到语义,不明白的可以复习一下word2vec的原理

但是我们知道, 注意力计算的过程是没有可以学习的参数的, 仅仅是对算法的抽象那么这里就不用浪费嘴舌了,不懂的可以看上图
这里…唯一值得说的就是拼接过后改变形状的全连接层这里它也许会学到如何变幻形状会拟合的更好,但是本身并没有更多抽象的功能给线性层,所以就不说了

bmm运算 - 编码器GRU

因为注意力机制要学习权重如何更好的分配,但是他自己偏偏没有需要学习的权重, 那么这个重任其实还是分配给了解码器GRU
编码器作用
1.学习如何给输入值编码
我们可以简单的理解编码在做的事情就是加密数据,从明文到暗文
而解码器就是解释器 ,将加密的数据解密
2.抽取高纬语义
这里简单说就是通过循环(记忆力机制) 编码器的输出会带有记忆力,也就是高纬语义特征

反向传播学啥
1.更好的抽取高纬语义
因为注意力机制本身要解决的是碎片化的语义和梯度爆炸等问题, 那么编码器要做的第一要义是给注意力层更好的输入,让他能更好的得到效果更好的bmm计算结果, 这样不仅每次学习的碎片化高阶语义会被注意力整合成完整的高阶语义还会被记忆力机制加权
2.更好的编码
这个说更好的编码其实有点扯,但是我们可以逆向看待问题
如果没有注意力机制,这编码器在做啥?
简单的高阶语义抽取其实就是更好的编码没有注意力机制的话学习偏向给解码器更好的结果的方向
有注意力机制的话学习结果偏向更好的bmm运输结果
这两者异曲同工,但又不完全相同

整个框架只能说精妙绝伦,就好像第一次看到word2vec中的霍夫曼softmax 的作用的时候其中的魅力不言而喻

帅气多汁你天哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Attention 普通注意力机制详解 (二)

注意力入门普通注意力机制的了深入理解因为GRU每次输入都是一个词一个词的输入,那么普通的Seq2seq框架就需要每个词算一遍注意力权重并对解码器输出进行bmm计算,得到加权的解码器词向量输出这样解码器的GRU每次解码的时候不是仅仅只考虑当前的一个词,而是考虑前后3个词甚至更多个词才会将这个词翻译前向传播的结构就是这样,那么反向传播就是整个学习过程的精华,解码器GRU通过logsoftmax计算概率损失, 这样会知道每个词翻译错误的误差然后向下传播知道每个词翻译的误差后 , GRU的权
复制链接

扫一扫

专栏目录