Positional Encoding的原理和计算

最新推荐文章于 2024-06-12 16:38:05 发布

雨•人

最新推荐文章于 2024-06-12 16:38:05 发布

阅读量1.1w

点赞数 74

本文链接：https://blog.csdn.net/weixin_44012382/article/details/113059423

版权

前言

最近一段时间在看研究生导师发的资料，因为导师是做自然语言处理和知识图谱方向的，所以之前学的CNN的知识暂时用不上啦。NLP和KG方面的知识我之前没怎么接触过，所以最近打算写一系列博文来记录一下学习过程，如果有说得不对的地方请大佬指正。

一、Positional Encoding的介绍

先说说Positional Encoding(位置编码)的由来。我们都知道传统做NLP邻域使用的模型大多是RNN模型(比如说LSTM、Bi-LSTM)，基于RNN模型的训练是一个迭代的过程，也就是把一句话中的每一个词按顺序输入模型中，当RNN处理完当前的这个词时才可以输入下一个词，这种方式虽然可以使RNN按顺序读取语义信息，但是由于是串行计算，当语句较长的时候计算效率较低。谷歌大脑在2017年发布的论文《Attention is all you need》中提出了一种新型的NLP处理模型——Transfomer。Transfomer的效果非常好并且可以对语句进行并行计算，也就是同时把一句话中的所有词都输入进去同时计算，大大加快了计算效率。但是问题来了，并行计算好是好，但是我们怎么让模型知道一句话中每个字的顺序信息呢？这就要引出我们的Positional Encoding(位置编码)了。

二、Positional Encoding的计算

2.1 Transfomer的输入

首先我会先讲一下Positional Encoding(位置编码)的计算过程，然后在根据我自己的理解来讲Positional Encoding(位置编码)的原理。首先给出Transformer的输入部分，如上图所示。指的是初始输入的多语句矩阵，多语句矩阵通过查表，得到词向量矩阵 $X_{embedding}:[batch size,sequence length,embedding dimension]$ 。指的是句子数，指的是输入的句子中最长的句子的字数，指的是词向量的长度(通过查表得到)。和 $X_{embedding}$ 的示意图如下图所示。

2.2 计算

如上图所示word embedding指的是词向量由每个词根据查表得到，pos embedding就是我们要求的Positional Encoding，也就是位置编码。可以看到word embedding和pos embedding逐点相加得到composition，即既包含语义信息又包含位置编码信息的最终矩阵。pos embedding是根据pos(当前字符在句子中的位置)计算得到的，具体公式为：

其中 pos 指当前字符在句子中的位置（如：“你好啊”，这句话里面“你”的 pos= 0 ）， $d_{model}$ 指的是word embedding的长度（比如说：查表得到“民主”这个词的word embedding为 [1,2,3,4,5] ，则 $d_{model}= 5$ ），的取值范围是： $i= 0,1,...,d_{model}-1$ 。当的值为偶数是使用上面那条公式，当的值为奇数时使用下面那条公式。当 $pos=3,d_{model}= 128$ 时Positional Encoding(或者说是pos embedding)的计算结果为：

现在是不是好理解一点了，每一个字所计算出来的Positional Encoding并不是一个值而是一个向量，他的长度和这个字的word embedding的长度一致，从而方便他们两个逐点相加得到既包含word embedding又包含位置信息的最终向量。

三、Positional Encoding的原理

这一节我们来讨论一下Positional Encoding的原理，写这一节的时候我参考了知乎的这个回答，非常感谢原作者！

不知道大家有没有想过为什么我们要用这么复杂的方法计算Positional Encoding，那让我们先来构思一个简单一点的Positional Encoding表达方法。首先，给定一个长为的文本，最简单的位置编码就是计数，即使用作为文本中每个字的位置编码(例如第2个字的Positional Encoding=[1,1,...,1])。但是这种编码有两个缺点：1. 如果一个句子的字数较多，则后面的字比第一个字的Positional Encoding大太多，和word embedding合并以后难免会出现特征在数值上的倾斜；2. 这种位置编码的数值比一般的word embedding的数值要大，对模型可能有一定的干扰。
为了避免上述的问题，我们开始考虑把归一化，最简单的就是直接除以，即使用 $0,\frac{1}{T},...,\frac{T-1}{T}$ (例如第2个字的Positional Encoding=[1/T,1/T,...,1/T])。这样固然使得所有位置编码都落入区间，但是问题也是显著的：不同长度文本的位置编码步长是不同的，在较短的文本中紧紧相邻的两个字的位置编码差异，会和长文本中相邻数个字的两个字的位置编码差异一致，如下图所示。

由于上面两种方法都行不通，于是谷歌的科学家们就想到了另外一种方法——使用三角函数 PE=sin(pos) 。优点是：1、可以使PE分布在 [0,1] 区间。2、不同语句相同位置的字符PE值一样(如：当pos=0时，PE=0)。但是缺点在于三角函数具有周期性，可能出现pos值不同但是PE值相同的情况。于是我们可以在原始PE的基础上再增加一个维度： $PE=[sin(\frac{pos}{\alpha }),sin(\frac{pos}{\beta })]$ ，虽然还是可能出现pos值不同但是PE值相同的情况，但是整个PE的周期是不是明显变长了。那如果我们把PE的长度加长到和word embedding一样长呢？就像 $PE=[sin(\frac{pos}{10000^{0/d_{model}}}),sin(\frac{pos}{10000^{2/d_{model}}}),...,sin(\frac{pos}{10000^{2i/d_{model}}})]$ （是不是有Positional Encoding计算公式内味了），PE的周期就可以看成是无限长的了，换句话说不论pos有多大都不会出现PE值相同的情况。然后谷歌的科学家们为了让PE值的周期更长，还交替使用sin/cos来计算PE的值，于是就得到了论文中的那个计算公式：

参考文献

雨•人

关注

74
点赞
踩
178

收藏

觉得还不错? 一键收藏
20
评论
Positional Encoding的原理和计算

前言最近一段时间在看研究生导师发的资料，因为导师是做自然语言处理和知识图谱方向的，所以之前学的CNN的知识暂时用不上啦。NLP和KG方面的知识我之前没怎么接触过，所以最近打算写一系列博文来记录一下学习过程，如果有说得不对的地方请大佬指正。一、Positional Encoding的介绍先说说Positional Encoding(位置编码)的由来。我们都知道传统做NLP邻域使用的模型大多是RNN模型(比如说LSTM、Bi-LSTM)，基于RNN模型的训练是一个迭代的过程，也就是...
复制链接

扫一扫