理解Transformer中的位置编码

最新推荐文章于 2024-06-06 15:30:28 发布

zhulinniao

最新推荐文章于 2024-06-06 15:30:28 发布

阅读量9.5k

点赞数 7

分类专栏：自然语言处理

【博客公式均自己亲自推导和撰写，请转载请注明出处，文章如有侵权、未引用出处等请及时联系whaozl@126.com 或留言评论】【很多已会但是会忘,写纯粹是为了多总结多向前看看和向后看看】

本文链接：https://blog.csdn.net/zhulinniao/article/details/104462228

版权

自然语言处理专栏收录该内容

12 篇文章 1 订阅

订阅专栏

理解Transformer中的位置编码

为什么要位置编码
三角函数的位置编码(原始Transformer)
- Reference

为什么要位置编码

【文本分类】

I like this movie because it doesn’t have an overhead history. Positive
I don’tlike this movie because it has an overhead history. Negative
在文本分类中,not出现地方不同，导致分类的类别也不同

【命名实体识别】
在这里插入图片描述
lnc.之前单词一般为公司具体名称即LOC(组织机构)
in 之后一般为TIME(时间) 和 LOC (组织机构)

三角函数的位置编码(原始Transformer)

$\left\{ \begin{matrix} PE(pos,2i)=\sin \left( \frac{pos}{{{10000}^{2i/{{d}_{model}}}}} \right) \\ PE(pos,2i\text{+1})=\cos \left( \frac{pos}{{{10000}^{2i/{{d}_{model}}}}} \right) \\ \end{matrix} \right.$
其中， $p o s$ 是 token的位置索引，设句子长度为 $L$ ,那么 $p o s = 0, 1, . . ., L - 1$ 。
$i$ 是向量的某一维度，假设 $d_{model}=512$ 时 $i = 0, 1, . . ., 255 (因为 2 i 了)$
根据如上公式，可以为每个位置上的token生成 $d_{model}$ 维的位置向量
【为什么这么做】因为根据三角函数
$\left\{ \begin{matrix} \sin (\alpha +\beta )=\sin \alpha \cos \beta \text{+con}\alpha \text{sin}\beta \\ \cos (\alpha +\beta )=\cos \alpha \cos \beta -\sin \alpha \sin \beta \\ \end{matrix} \right.$
可得：
$\left\{ \begin{matrix} PE(pos+k,2i)=PE(pos,2i)\times PE(k,2i\text{+1})\text{+}PE(pos,2i\text{+1})\times PE(k,2i) \\ PE(pos+k,2i\text{+1})=PE(pos,2i\text{+1})\times PE(k,2i\text{+1})-PE(pos,2i)\times PE(k,2i) \\ \end{matrix} \right.$
【结论】当求 $P E (p o s + k, 2 i)$ 的向量时，可表示为对 $P E (p o s, 2 i)$ 上的线性表示，因为 $P E (k, 2 i + 1)$ 当每次 k=1 时就是一个固定的值，这样逐步向后推。

Reference

本博客的基础知识来源于浅谈 Transformer-based 模型中的位置表示，然后基于此，我自己得到上面的结论。

zhulinniao

关注

7
点赞
踩
24

收藏

觉得还不错? 一键收藏
3
评论
理解Transformer中的位置编码

理解Transformer中的位置编码为什么要位置编码为什么要位置编码【文本分类】I like this movie because it doesn’t have an overhead history. PositiveI don’tlike this movie because it has an overhead history. Negative【命名实体识别】...
复制链接

扫一扫

专栏目录