Self-Attention结构细节及计算过程

wy08success

已于 2023-05-09 20:22:22 修改

阅读量1.4k

点赞数 2

分类专栏：深度学习文章标签：矩阵深度学习

于 2023-05-06 08:59:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54039182/article/details/130515594

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、结构

上面那个图其实不是那么重要，只要知道将输入的x矩阵转换成三个矩阵进行计算即可。自注意力结构的输入为输入矩阵的三个变形 Q（query矩阵）、K（key矩阵）、V（value矩阵）构成，那么Q、K、V是如何得到的呢？

假设输入矩阵是 M*N的一个矩阵，也就是意味着输入有M个单词，则：

1.1 Q矩阵：

1.2 K矩阵：

1.3 V矩阵：

注：作为中间矩阵的行数必须是N的，否则不能做矩阵乘法，且Q、K两个矩阵必须行列一致，否则不能保持最后的Q、K、V矩阵行列一致。

二、self-Attention输出

计算公式如下：

即计算Q矩阵与K矩阵的乘积，得到了一个N * N的矩阵，N为单词个数：

为了避免数值过大，除了向量维度的平方根。

接着计算每个单词对于其他单词的注意力系数，由于是对每一行过Softmax函数，则每行之和为1.

最后将得到的注意力系数矩阵与V矩阵相乘：

注意注意！！这里应该是V矩阵在左边，注意力矩阵在右。

eg：word1如何计算得到z1：

Reference:Transformer模型详解（图解最完整版） - 知乎

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Self-Attention结构细节及计算过程

详细描述了自注意力的细节以及计算过程。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。