self-attention1 scaled由维度增加导致的距离增大
Additive Attention 和 Dot-product Attention
- query,用来和其他每个key vector进行交互,得到当前vector和其他vector的关联性,或者我们说的weights,用于计算自己的output
- key,用来和其他query vector进行交互, 帮助其他vector j 产生他的output
- value,将query和其他key产生得到的权重,跟自身的value进行加权求和,得到自己的output
残差结构能够很好的消除层数加深所带来的信息损失问题