Transformer笔记

最新推荐文章于 2024-07-23 14:36:35 发布

十九岁的花季少女

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量163

点赞数

分类专栏：机器学习文章标签： transformer 人工智能

本文链接：https://blog.csdn.net/xiaomi5410/article/details/127945355

版权

机器学习专栏收录该内容

27 篇文章 1 订阅

订阅专栏

Transformer

参考视频：https://www.bilibili.com/video/BV19Y411b7qx?p=4&spm_id_from=pageDriver&vd_source=b070ed3f7d11d76ba6c8c88f7c6bbf28

计算注意力

在这里插入图片描述
a,b向量分别与WQ,WK,WV相乘得到 Queries,Keys,Values

divid by 8 将score÷8，64跟词向量编码的维度有关（8²=64）。
上面说到向量计算，下面说矩阵运算，计算机效率更高。

单头注意力和多头注意力，多组QKV。

多头注意力计算过程，将Z_i(i=0-7)，横着拼到一起再与W₀相乘。

词向量编码

在这里插入图片描述

MASK

因为句子长度不一致，为了统一，取最长句子的长度，将短的句子用PADK补全，在计算其他词对PAD的注意力时用MASK代替，但是计算PAD对其他词的注意力时，正常计算。
在这里插入图片描述
根据a来预测出b所以不能让a看到b；同样的c对b来说也是未来词，不能注意到。

可以对两者取并集。

Transformer计算流程

在这里插入图片描述
将词首先进行词向量编码，然后跟之前讲到的位置编码PE矩阵相加，得到最终编码；使用编码向量进行自注意力计算得到Z，然后将Z与X相加（短接运算，理解为X和A的简单相加），随后做一个数据标准化，然后做一个全连接的运算。输出shape:单词个数每个向量编码长度【10512】（10个单词，每个单词编码为512维的向量）
在这里插入图片描述
encoder可以是多个。在decoder中初始输入与encoder是一样的，都是词向量编码+位置编码后的最终编码结果，只不过step=0时输入是起始符（后面依次输入是起始符，单词1（单词1是上词预测出的结果再作为输入）；起始符，单词1，单词2；起始符，单词1，单词2，单词3…），进行自注意力计算，进行X，Z相加和标准化。下面就不一样了，encoder-decoder attention这一层，也可以看作是自注意力计算不过这里的qkv不是按照x₁和x₂来计算的，是按照encoder的计算结果来作为kv用自己自注意力的结果作为q计算的。
transformer参考链接