Talking-Heads Attention

多头注意力机制各头独立进行, Talking-Heads 即交头接耳.

注意力机制

已知矩阵 Q n 1 × d k Q_{n_1 \times d_k} Qn1×dk, K n 2 × d k K_{n_2 \times d_k} Kn2×dk, V n 2 × d v V_{n_2\times d_v} Vn2×dv, 注意力
Attention ⁡ ( Q , K , V ) : = A ^ V : = Softmax ⁡ ( Q K T d k ) V . \operatorname{ Attention}(Q,K,V):= \hat{A}V:=\operatorname{ Softmax}(\frac{QK^T}{\sqrt{d_k}})V. Attention(Q,K,V):=A^V:=Softmax(dk QKT)V.
V V V记为 ( v 1 ⋮ v n 2 ) \left( \begin{array}{c} v_{1} \\ \vdots \\ v_{n_2} \end{array} \right) v1vn2. 可以将 v i v_i vi 想象成第 i 个词汇的向量. 注意力的第 i 个 行向量为

z i : = ( ∑ k A ^ i , k V k , 1 , ⋯   , ∑ k A ^ i , k V k , d v ) = ∑ k A ^ i , k v k . z_i:=(\sum_k\hat{A}_{i,k}V_{k,1}, \cdots, \sum_k\hat{A}_{i,k}V_{k,d_v} )=\sum_k \hat{A}_{i,k}v_k. zi

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值