attention中计算权重值的几种方法

最新推荐文章于 2025-03-09 21:09:53 发布

夜色如墨

最新推荐文章于 2025-03-09 21:09:53 发布

阅读量1.4k

点赞数

分类专栏：人工智能文章标签：机器学习深度学习算法

本文链接：https://blog.csdn.net/yeserumo/article/details/125856301

版权

人工智能专栏收录该内容

3 篇文章

订阅专栏

权重 $\alpha_i$

decoder的初始状态是encoder的最后一个状态 $h_m$ ，在attention下，encoder的所有状态都要保留下来。首先需要计算 $s_0$ 与encoder的每一个 $h_i$ 的相关性（权重） $\alpha_i = align(h_i, s_0)$ 。最终算出来 $\alpha_1, \alpha_2, \cdots, \alpha_m$ ， $alpha_i$ 都是介于01之间的实数，且所有 $\alpha$ 的和为1
在这里插入图片描述

计算方法

方法一（attention第一篇论文中提出的）

在这里插入图片描述
首先将 $h_i$ 与 $s_0$ 作concatenation得到一个更高维的向量。然后求矩阵 $w$ 与这个向量的乘积，得到一个向量，然后将tanh应用于向量的每一个元素上，将每一个元素压缩到[-1,1]，将tanh的输出与 $v$ 求内积，结果为一个实数 $\tilde{\alpha_i}$ 。
需要注意的是，图中的矩阵 $w$ 和 $v$ 都是参数，需要通过训练数据学习。
求出 $m$ 个参数 $\tilde{\alpha_1}, \tilde{\alpha_2}, \cdots , \tilde{\alpha_m}$ 需要对他们使用softmax变换(和为1)：
$[\alpha_1, \alpha_2, \cdots, \alpha_m] = Softmax([\tilde{\alpha_1}, \tilde{\alpha_2}, \cdots , \tilde{\alpha_m}])$

方法二（更常用）

Linear maps( $W_k,W_Q$ 通过训练得到)：
$k_i = W_k \cdot h_i$ , for $\text{ to } m$
$q_0 = W_Q \cdot s_0$
Inner product：
$\tilde{\alpha_i} = k^{T}_{i}q_0$ , for $\text{ to } m$
Normalization：
$[\alpha_1, \alpha_2, \cdots, \alpha_m] = Softmax([\tilde{\alpha_1}, \tilde{\alpha_2}, \cdots , \tilde{\alpha_m}])$