自注意力机制中的相对位置表示

最新推荐文章于 2024-03-18 17:29:01 发布

吴云理

最新推荐文章于 2024-03-18 17:29:01 发布

阅读量879

点赞数

分类专栏：机器学习文章标签：深度学习自然语言处理 transformer

本文链接：https://blog.csdn.net/wuyuanli_r/article/details/122121818

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Representations. In Proceedings of HLT-NAACL. New Orleans, Louisiana, 464–468. $\url{https://doi.org/10.18653/v1/N18-2074}$
Transformer 的输入是文字嵌入和位置嵌入的矩阵和. 第 i 个文字的输入为 $x_i:=x_i +e_i$ .
如果单独考虑位置信息, 在初始 Q,K,V 中不考虑位置信息. 在注意力机制中所有的运算都和位置有关系. 我们注意到位置信息主要是在点积和输出投影 $z_i:=\sum_k\hat{a}_{i,k}v_k$ 中起作用.
我们假定第 i 个位置受第 j 个位置的影响为 $a_{i,j} \in \mathbb{R}^d$ .
比较明显的是 $z_i= \sum_k\hat{a}_{i,k}(v_k+a_{i,k})$ .

在点积中 $q'_i+q''_i)(k'_j+k''_j)^T:=(x_i +e_i)W^Q ((x_j +e_j)W^K)^T=q'_ik'_j +q''_i(k'_j+k''_j )^T +q'_ik''_j$ .
观察上式, 第一项与位置无关, 后两项与位置相关. 考虑做一点改动, 不去考虑 Q 的位置信息, 只考虑 K 的位置信息. 修改后的公式变为
$q'_i(k'_j + a_{i,j})^T$ .
出于效果上的考虑, 这里的 $a_{i,j}$ 和前面的 $a_{i,j}$ 不能等同. 我们用所在的环境将之分别记作 $a_{i,j}^K$ , $a_{i,j}^V$ .