attention的QKV向量:
自注意力计算流程:
换成用矩阵计算,(计算机)效率更高/(数学上,矩阵和向量复杂度一样):
单头注意力机制和多头注意力机制:
单头注意力机制:即只有一组QKV;
多头注意力机制计算过程:
有多个Wq,Wk,Wv矩阵得到多个QKV
Transformer简明教程 P3 计算注意力
最新推荐文章于 2024-03-18 10:18:00 发布
attention的QKV向量:
自注意力计算流程:
换成用矩阵计算,(计算机)效率更高/(数学上,矩阵和向量复杂度一样):
单头注意力机制和多头注意力机制:
单头注意力机制:即只有一组QKV;
多头注意力机制计算过程:
有多个Wq,Wk,Wv矩阵得到多个QKV