【动手学深度学习v2】注意力机制—3 自注意力&位置编码

Hannah2425

已于 2022-08-27 18:29:15 修改

阅读量730

点赞数

分类专栏： DeepLearning 文章标签：深度学习机器学习人工智能

于 2022-08-25 20:38:49 首次发布

本文链接：https://blog.csdn.net/weixin_43650171/article/details/126525792

版权

DeepLearning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

自注意力

1. 自注意力 self-attention
2. 比较卷积神经网络、循环神经网络和自注意力
3. 位置编码 Positional Encoding
- 基于正弦函数和余弦函数的固定位置编码
- - 位置矩阵编码可视化
  - 相对位置信息
参考
系列文章

1. 自注意力 self-attention

输入序列： $\mathbf{x}_1, \ldots, \mathbf{x}_n$ ，任意 $\mathbf{x}_i \in \mathbb{R}^d$
自注意力池化层：将 $\mathbf{x}_i$ 当作key，value，query对序列抽取特征
输出序列： $\mathbf{y}_1, \ldots, \mathbf{y}_n$
注意力汇聚函数 $f$ ：
$\mathbf{y}_i = f(\mathbf{x}_i, (\mathbf{x}_1, \mathbf{x}_1), \ldots, (\mathbf{x}_n, \mathbf{x}_n)) \in \mathbb{R}^d$

2. 比较卷积神经网络、循环神经网络和自注意力

目标：将由 $n$ 个词元组成的序列映射到另一个长度相等的序列，其中的每个输入词元或输出词元都由 $d$ 维向量表示
在这里插入图片描述

3. 位置编码 Positional Encoding

自注意力因为并行计算而放弃了顺序操作。为了像RNN一样纳入顺序信息，通过在输入表示中添加位置编码（positional encoding）来注入绝对的或相对的位置信息。位置编码可以学习也可以固定得到。

基于正弦函数和余弦函数的固定位置编码

假设输入长度为n的序列是 $\mathbf{X} \in \mathbb{R}^{n \times d}$ ，用位置编码矩阵 $\mathbf{P} \in \mathbb{R}^{n \times d}$ 输出 $\mathbf{X}+\mathbf{P}$ ，矩阵第 $i$ 行、第 $2 j$ 列和 $2 j + 1$ 列上的元素为：
$\begin{split}\begin{aligned} p_{i, 2j} &= \sin\left(\frac{i}{10000^{2j/d}}\right),\\p_{i, 2j+1} &= \cos\left(\frac{i}{10000^{2j/d}}\right).\end{aligned}\end{split}$
举例如下：
row_position
第六列是sin；
第七列相对于第六列位移 sin变cos；
第6列和第7列的频率高于第8列和第9列

位置矩阵编码可视化

捕捉绝对位置
positon encoding
位置编码通过使用三角函数在编码维度上降低频率。横列对应一个位置，相当于一句话中的一个词，纵列是同一个维度。纵列的值周期性变化，且沿着编码维度，频率单调降低。

相对位置信息

允许模型学习得到输入序列中相对位置信息；
这是因为对于任何确定的位置偏移 $\delta$ ，位置处 $\delta$ 的位置编码可以线性投影位置 $i$ 处的位置编码来表示。任何一对 $p_{i, 2j}, p_{i, 2j+1})$ 都可以线性投影到 $(p_{i+\delta, 2j}, p_{i+\delta, 2j+1})$
$\begin{split}\begin{aligned} &\begin{bmatrix} \cos(\delta \omega_j) & \sin(\delta \omega_j) \\ -\sin(\delta \omega_j) & \cos(\delta \omega_j) \\ \end{bmatrix} \begin{bmatrix} p_{i, 2j} \\ p_{i, 2j+1} \\ \end{bmatrix}\\ =&\begin{bmatrix} \cos(\delta \omega_j) \sin(i \omega_j) + \sin(\delta \omega_j) \cos(i \omega_j) \\ -\sin(\delta \omega_j) \sin(i \omega_j) + \cos(\delta \omega_j) \cos(i \omega_j) \\ \end{bmatrix}\\ =&\begin{bmatrix} \sin\left((i+\delta) \omega_j\right) \\ \cos\left((i+\delta) \omega_j\right) \\ \end{bmatrix}\\ =& \begin{bmatrix} p_{i+\delta, 2j} \\ p_{i+\delta, 2j+1} \\ \end{bmatrix}, \end{aligned}\end{split}$