这是一个Self-Attention的公式,在查阅视频和文章之后,得到一些总结方便自己查看。
套用视频中的截图。
(1)X是向量,W是通过学习到的矩阵,W和X相乘则代表线性相乘,提升拟合能力。
(2)套用视频中的例子,Q代表渣男的择偶要求,K代表自身条件,V代表被匹配到的备胎,每一个人都有自己的一套QKV。
(3)Q和K的转置相乘即为Q的行 与 K的矩阵的每一行进行点乘。 点乘的意义在于:
=
,如A,B的角度为90度,则A,B没有相似性,角度越小,相似度越高。
因此Q 与 K的转置相乘 就是在计算Q的每一行与 K的每一行的相似度,就是渣男在与每一个备胎进行匹配,看看自己的关注度最应该放在谁身上。
(4)经过softmax之后即得到一个和为1的权重矩阵,接下来再与V(每一个值)进行加权,就可以得到最后的注意力分数。