Transformer细节（九）——Transformer位置编码

最新推荐文章于 2024-09-11 11:50:00 发布

多学学多写写

最新推荐文章于 2024-09-11 11:50:00 发布

阅读量376

点赞数 3

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_47129891/article/details/139896619

版权

Transformer模型中的位置编码（Positional Encoding）是用于向模型提供序列中各个元素位置信息的机制。由于Transformer没有卷积神经网络或循环神经网络中固有的序列顺序信息，它必须通过位置编码显式地引入这些信息。

Transformer模型依赖于自注意力机制（self-attention mechanism），该机制在计算时对序列中的所有位置一视同仁。这种特性使得模型在处理序列数据时缺乏位置信息。因此，为了让模型能够区分序列中的不同位置，必须引入位置信息。

Transformer的原始论文《Attention is All You Need》中提出了一种使用正弦和余弦函数的固定位置编码方法。具体公式如下：

对于序列中位置 \( pos \) 处的第 \( 2i \) 维度（偶数维度）：

\[ \text{PE}_{(pos, 2i)} = \sin \left( \frac{pos}{10000^{2i/d_{\text{model}}}} \right) \]

对于序列中位置 \( pos \) 处的第 \( 2i+1 \) 维度（奇数维度）：

\[ \text{PE}_{(pos, 2i+1)} = \cos \left( \frac{pos}{10000^{2i/d_{\text{model}}}} \right) \]

        其中：
         \( pos \) 是位置索引。
         \( i \) 是维度索引。
         \( d_{\text{model}} \) 是模型的隐藏层维度。

这些函数确保了不同位置的编码是唯一的，同时不同位置之间的距离也通过这些编码被保留和反映出来。

1.唯一性：每个位置的编码都是唯一的，不同位置的编码不会相同。
2. 平滑性：相近位置的编码在高维空间中也是相近的，这有助于模型捕捉局部信息。
3. 可扩展性：由于位置编码是通过数学函数计算出来的，因此可以扩展到任意长度的序列，而不需要预定义所有可能的序列长度。

在Transformer中，位置编码会在输入序列的词嵌入（word embeddings）中直接加入。假设 \(\mathbf{X}\) 是输入序列的词嵌入矩阵，\(\mathbf{PE}\) 是位置编码矩阵，则实际输入模型的矩阵为：

\[ \mathbf{X'} = \mathbf{X} + \mathbf{PE} \]

虽然正弦和余弦函数的固定位置编码是Transformer中的经典做法，但也有其他方法可以引入位置信息，例如：
1.可学习的位置编码：直接将位置编码作为可训练的参数。
2.相对位置编码：编码相对位置而不是绝对位置，这对于某些任务可能更有效。

总之，位置编码在Transformer模型中起到了引入序列位置信息的关键作用，确保模型在处理序列数据时能够正确理解和利用位置信息。

关注