Q K V self-attention的输入是字的嵌入X ‘我’ [1,0,0,0] ‘你’[0,2,0,0] 输入的是X,但是需要注意的就是,所谓的Q,K,V不是矩阵,而是,Q通道,K通道,V通道,对于这3个通道输入都是X,如下: 其中,矩阵WQ,WK,WV矩阵就是所求的。