图片参考https://zhuanlan.zhihu.com/p/503011317?utm_source=wechat_session&utm_medium=social&utm_oi=755464723327090688&utm_content=group3_article&utm_campaign=shareopn&s_r=0
- 输出的维度和q一样
维度的理解:
100个q,625个k,v, 每个qkv的维度都是256
每个q都要和625个k算一个权重,然后乘以相应的v,所以查询结果的维度和q一样,但是包含的是v的信息
- 对原输入object query(fc前)的理解,不要理解成q,不然经过一次后只有v没法解释
只是一组可学习的特征,经过fc才变为q,k,v,这组特征可以让q,k,v更加准确