【注意力机制】加性注意力(Additive Attention)&缩放点积注意力(Scaled Dot-product Attention)

最新推荐文章于 2024-06-04 10:00:05 发布

火鸡大师傅

最新推荐文章于 2024-06-04 10:00:05 发布

阅读量4k

点赞数 6

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51031772/article/details/134803987

版权

加性注意力

这种注意力方法是第一篇文章被提出来的，也被叫做Bahdanauz注意力。主要计算方法是将h和s先用两个参数矩阵 $W^q$ （q*d）和 $W^k$ （k*d）分别映射到d维，然后把他们相加（element-wise），经过一个tanh激活函数后，再与另一个参数矩阵W（也是d维）进行点积，最终得到注意力权重α（标量），随后需要用softmax进行归一化。

李宏毅老师的讲解：

王树森老师的讲解，这里是把两个参数矩阵 $W^q$ 和 $W^k$ 先拼接到了一起，然后对拼接好的输入向量进行点积，因为点积计算也是加性的，所以被叫做加性注意力。

这种注意力的计算方法现在比较不常用

缩放点积注意力

这是Transformer文章提出的注意力计算方法，也被叫做Vaswani注意力。

主要计算方法是将h和s先用两个参数矩阵 $W^q$ （q*d）和 $W^k$ （k*d）分别映射到d维，然后直接把他们点积，然后再softmax，得到注意力权重α。

注意的是这里需要进行一个缩放，作者认为，对于较大的 d 值，点积的数量级会变大，从而将 softmax 函数推向梯度极小的区域，不利于训练。因此需要除以 $\sqrt{d_k}$

李宏毅老师的讲解：

火鸡大师傅

关注

6
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。