自己学习使用
写的非常nb的讲解超详细图解Self-Attention - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/410776234
李宏毅视频讲解
两个向量相关联的程度![](https://img-blog.csdnimg.cn/1efc11f8e8bf4cf5ad0ea2a65a519fd8.png)
计算出attention score
使用softmax![](https://img-blog.csdnimg.cn/ae9241e1d2b84346ba2225781f160399.png)
b1,b2,b3,b4可以同时被计算出来![](https://img-blog.csdnimg.cn/d7ce9b788ddf4437aa5ed5307f6ef085.png)
在矩阵方方面的处理
转置后进行相乘![](https://img-blog.csdnimg.cn/35ed2843d63644ae9d1646c02be848bc.png)
计算b![](https://img-blog.csdnimg.cn/8346ca94627049c78ff06fc21ee331fa.png)
只有红色框框的需要训练得到
多头之间互相不影响,只在各自的层做矩阵运算