注意力机制(Attention)是一种用于深度学习和神经网络中的关键技术,它允许模型在处理序列数据或集合数据时,专注于输入的不同部分,以便更好地捕捉关联和信息。
1 原理:
Attention机制的原理是允许模型根据输入序列中不同位置的相关性,动态地分配不同权重。在处理序列数据时,它可以帮助模型聚焦于与当前预测或输出最相关的部分。减少处理⾼维输⼊数据的计算负担,结构化的选取输⼊的⼦集,从⽽降低数据的维度。让系统更加容易的找到输⼊的数据中与当前输出信息相关的有⽤信息,从⽽提⾼输出的质量。帮助类似于decoder这样的模型框架更好的学到多种内容模态之间的相互关系。通常,Attention机制包括三个主要步骤
- 输入序列和输出序列的每个元素都与所有其他元素计算相似度分数。
- 利用这些相似度分数计算权重,以决定每个元素对输出的贡献。
- 输出序列中的每个元素是输入序列的加权组合,其中权重由相似度分数决定。
具体来说,一个常见的 Attention 机制包括以下组件:
- 查询