-------------------------------------
原创文章欢迎转载,但请注明出处。
-------------------------------------
Transformer 起源于 2017 年的一篇 google brain 的又一篇神文 《Attention is all you need》,至此由引领了在 NLP 和 CV 了又一研究热点。
在 Transformer 中一个非常关键的贡献就是 self-attention。就是利用输入样本自身的关系构建注意力模型。
self-attention 中又引入了三个非常重要的元素: Query 、Key 和 Value。
假设 是一个输入样本序列的特征, 其中 n 为输入样本个数(序列长度),d 是单个样本纬度。
Query、Key & Value 定义如下:
Query: , 其中
, 这个矩阵可以认为是空间变换举证,下同
Key: ,其中