多头注意力机制各头独立进行, Talking-Heads 即交头接耳.
注意力机制
已知矩阵 Q n 1 × d k Q_{n_1 \times d_k} Qn1×dk, K n 2 × d k K_{n_2 \times d_k} Kn2×dk, V n 2 × d v V_{n_2\times d_v} Vn2×dv, 注意力
Attention ( Q , K , V ) : = A ^ V : = Softmax ( Q K T d k ) V . \operatorname{ Attention}(Q,K,V):= \hat{A}V:=\operatorname{ Softmax}(\frac{QK^T}{\sqrt{d_k}})V. Attention(Q,K,V):=A^V:=Softmax(dkQKT)V.
将 V V V记为 ( v 1 ⋮ v n 2 ) \left( \begin{array}{c} v_{1} \\ \vdots \\ v_{n_2} \end{array} \right) ⎝⎜⎛v1⋮vn2⎠⎟⎞. 可以将 v i v_i vi 想象成第 i 个词汇的向量. 注意力的第 i 个 行向量为
z i : = ( ∑ k A ^ i , k V k , 1 , ⋯ , ∑ k A ^ i , k V k , d v ) = ∑ k A ^ i , k v k . z_i:=(\sum_k\hat{A}_{i,k}V_{k,1}, \cdots, \sum_k\hat{A}_{i,k}V_{k,d_v} )=\sum_k \hat{A}_{i,k}v_k. zi