Transformer模型：Attention is All you need

最新推荐文章于 2023-06-14 14:07:06 发布

辰星M

最新推荐文章于 2023-06-14 14:07:06 发布

阅读量440

点赞数 1

分类专栏：自然语言处理NLP 文章标签： transform attention

本文链接：https://blog.csdn.net/woniu201411/article/details/118026303

版权

自然语言处理NLP 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

一、Transformer框架

1、Self-Attention

2、Multi-Head Attention

3、Encoder-Decoder Attention

4、Feed Forward Neural Network

二、位置编码

Attention机制，将序列中的任意两个位置之间的距离是缩小为一个常量；其次它不是类似RNN的顺序结构，因此具有更好的并行性，符合现有的GPU框架。Transformer中抛弃了传统的CNN和RNN，整个网络结构完全由且仅由self-Attenion和Feed Forward Neural Network组成，解决了LSTM的限制问题。

一、Transformer框架

Transformer本质上是一个Encoder-Decoder的结构，Encoder由Self-Attention、Feed Forward neural network组成，Decoder由Self-Attention、Encoder-Decoder Attention、Feed Forward neural network组成，整个网络机构完全由attention机制组成。

1、Self-Attention

self-Attention核心内容是为输入向量的每个单词学习一个权重，例如在下面的例子中我们判断it代指的内容:"The animal didn't cross the street because it was too tired"。通过加权之后可以得到类似下图的加权情况

计算方法如下：

公式计算方法理解：

transformer的输入首先通过Word2Vec等词嵌入方法将输入语料转化成特征向量，论文中使用的词嵌入的维度为 512。

在self-attention中，每个单词有3个不同的向量，它们分别是Query向量（Q），Key向量（K）和Value向量（V），长度均是64。它们由嵌入向量X乘以三个不同的权值矩阵得到，其中三个矩阵的尺寸也是相同的，均是 512*64。

attention的计算方法示例：

Query，Key，Value的概念取自于信息检索系统，举个简单的搜索的例子来说。当你在某电商平台搜索某件商品（年轻女士冬季穿的红色薄款羽绒服）时，你在搜索引擎上输入的内容便是Query，然后搜索引擎根据Query为你匹配Key（例如商品的种类，颜色，描述等），然后根据Query和Key的相似度得到匹配的内容（Value)。self-attention中的Q，K，V也是起着类似的作用，在矩阵计算中，点积是计算两个矩阵相似度的方法之一，因此公式中使用了 QK进行相似度的计算，接着便是根据相似度进行输出的匹配，这里使用了加权匹配的方式，而权值就是query与key的相似度。