X:包含很多信息
q:查询 为了编码x 用来去查询别人的向量
k:被查询的向量 q*k 就能得到需要花多少注意力去关注第一个词 去关注第二个词......... 通过softmax变成概率
V:真正的语义 很多信息通过变换矩阵,变换成v 通过概率把他们加起来就变成 Z
X:包含很多信息
q:查询 为了编码x 用来去查询别人的向量
k:被查询的向量 q*k 就能得到需要花多少注意力去关注第一个词 去关注第二个词......... 通过softmax变成概率
V:真正的语义 很多信息通过变换矩阵,变换成v 通过概率把他们加起来就变成 Z