如何理解 Transformer 中的 Query、Key 与 Value

-------------------------------------

原创文章欢迎转载,但请注明出处。

-------------------------------------

Transformer 起源于 2017 年的一篇 google brain 的又一篇神文 《Attention is all you need》,至此由引领了在 NLP 和 CV 了又一研究热点。

在 Transformer 中一个非常关键的贡献就是 self-attention。就是利用输入样本自身的关系构建注意力模型。

self-attention 中又引入了三个非常重要的元素: Query 、Key 和 Value。

假设 \bf{X} \in \mathbb{R}^{n \times d} 是一个输入样本序列的特征, 其中 n 为输入样本个数(序列长度),d 是单个样本纬度。

Query、Key & Value 定义如下:

Query: \bf{Q} = \bf{X} \cdot W^Q , 其中\bf{W}^Q \in \mathbb{R}^{d \times d_q}, 这个矩阵可以认为是空间变换举证,下同

Key: \bf{K} = \bf{X} \cdot W^K ,其中

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值