240630_昇思学习打卡-Day12-Transformer中的Multiple-Head Attention-CSDN博客

本文链接：https://blog.csdn.net/weixin_66378701/article/details/140087265

240630_昇思学习打卡-Day12-Transformer中的Multiple-Head Attention

以下为观看大佬课程及查阅资料总结所得，附大佬视频链接：Transformer中Self-Attention以及Multi-Head Attention详解_哔哩哔哩_bilibili，强烈建议先去看大佬视频，然后自己做笔记。

附上期Self-Attention链接：240629_昇思学习打卡-Day11-Vision Transformer中的self-Attention-CSDN博客，本文中用到了上期的思想，建议先看上期。

Multi-Head Attention和Self-Attention在前半部分是差不多的，只是在得到了对应的 $q^i$ ， $k^i$ ， $v^i$ 之后，再把这三个进行均分，有多少个Head就均分多少份，这里的均分就是直接拆分，比如 $q^1$ 是 $(1, 1, 0, 1)$ ，均分两份后就是 $(1, 1)$ 和 $(0, 1)$ ，当然，这样说可能有点过于简单了，观察原公式，原公式中他是乘以一个矩阵 $W_i^Q$ ，我们可以其设置成对应值实现均分，比如
$q^1=(1,1,0,1)$

$W_1^Q=\begin{pmatrix} 1 & 0\\ 0 & 1\\ 0 & 0\\ 0 & 0\end{pmatrix}$

此时
$q^{1,1}=q^1*W_i^Q=(1,1)$
同理如果我们要求 $q^{1,2}$ ，就给 $W_2^Q$ 赋值为：
$W_2^Q=\begin{pmatrix} 0 & 0\\ 0 & 0\\ 0 & 0\\ 0 & 1\end{pmatrix}$
这样我们就可以通过乘法计算出 $q^{1,2}$ ，但是要问这个矩阵是怎么确定的，我暂时还不知道，大佬文章中也暂时没提到，我只是通过直接拆分的方法知道他的目标值，然后逆推导出的这个矩阵。后面等搞明白了回来修复，如有大佬指正不胜感激。