attention is all you need 论文解读视频文字版-CSDN博客

本文链接：https://blog.csdn.net/weixin_45498320/article/details/129979685

文章详细阐述了Transformer论文的核心内容，强调了注意力机制在处理序列信息，特别是机器翻译任务中的重要性。Transformer架构摒弃了传统RNN和LSTM中的固定大小上下文向量，通过自注意力和编码器-解码器结构，实现了更高效的性能。多头注意力机制允许模型并行处理信息，降低了计算复杂度，提高了模型的学习效率。

摘要由CSDN通过智能技术生成

一丝不苟的处理论文评审和代码错误这次要评审的现代论文合集是正在成为基于你的自然语言处理技术核心架构的路线 Transformers 论文原标题是 Attention Is All You Need。
从论文题目可以看出，在变形金刚的原型案例中，这种注意力每天都被用作一个想法。
事实上，trans parent 是一种充分利用了一种称为注意力机制的架构。
看看翻译的进度，截至2021年，最新的自然语言处理端高性能模型就是基于这样的transformer架构。
成为热门话题的 gpg 和 penalty 都适当地使用了这些 transformer 的架构来产生良好的性能。
它的特点是利用了Quest的父类的encoder架构，现在热任务中最具代表性和重要的任务之一就是机器翻译。
其实如果查一下机器翻译技术的发展历程，它是1986年就被提出的，10年后lstm出现了。
使用这个lstm，可以对各种序列信息进行建模，代表性的是可以预定股票价格预测周期函数。
Sequence Sequence 将出现 Squat sequence 是在2014 年使用这个固定大小的深度序列，于是机器翻译技术开始再次迅速兴起。
已经提出了一种通过使用上下文向量来执行翻译的方法。
有一个性能上的限制，需要对一个向量进行压缩，后来随着attention机制受限的论文出现，可以通过应用sequence序列模型的attention方法进一步提升性能。

这种性能已被证明要好得多，从这个变压器 1 开始，不再很好地处理 q 的各种测试。
Attention mechanism 在不使用基于复杂架构的情况下被越来越多地使用。所以，自从 attention mechanism 出现以来，
可以说研究的方向已经往抽取信息的方向发展了，当然后面的论文中也有很多利用年轻代的架构，但是整体的趋势本身就是这样的
各种高性能模型以符合变压器架构的方式受到限制。
如果是现有sequence序列模型的一个点，就是源句的信息被压缩在这个context上下文部分，这时候可能会出现瓶颈，可能会导致性能下降。
如果查当前这首诗，可以说是使用代表性序列序列模型的数字启示。
当左边的德语句子，即由每个单词组成的序列进来时，它是中间的并转换成一个固定大小的上下文向量，然后再次从这个上下文向量创建一个输出句子
我们可以将其称为序列-序列模型，因为它创建了从一个序列到另一个序列的序列。
结果，你可以看到它出现在英文输出句子中，但是，如果你检查这个时候的sequence序列架构，你可以看到每输入一个单词，hidden street value就会更新。

这样，每当输入一个单词时，它都会收到包含到目前为止已输入的某些单词的信息的预期街道值，并每次以这种方式更新这些stilled值。也就是说，通过这种方式，每个依次说
pdn street值每次按顺序输入时都会更新，由于这个lead state值有之前输入过的某些词的信息，所以当输入最后一个词时，此时的street值就代表了整个源句是，它可以作为一个单一的上下文向量。因此，输入最后一个单词时隐藏街道的值
作为一个语境向量，假设这个语境向量包含了关于源句早先出现的语境信息。
在执行解码器部分，每当有输出词进来时，它就从这个上下文向量开始，类似地创建一个 feed street 并输出 4 次。
它作为输入进来，并重复输出到前一个，接收输入就像一个预期的直线，有关于某个单词的信息，并确认 deste 框架是很棒的。这样，每次在解码器部分
在更新隐藏街道值的同时，重复进行，直到id street 值的输出值为nw 序列，所以当序列结束时，输出语句生成完成。
可以看到输出信息Good 2 minutes出来了，这就是sequence cos模型最基本形式的运行原理。
在创建这样一个固定大小的上下文向量方面，如果信息是前导的，这些输入句子有时很短，有时很长，所以对于这种不同数量的情况，总是有固定大小的源句子的信息。所以，作为一个稍微缓解这个问题的想法，我可以通过在我的二维代码中每次让我的米饭在鱼雷中引用这个固定大小的上下文向量来提高性能。这样，关于这个上下文向量的信息是市子党的大人。
由于可以根据行为进一步降低信息丢失的程度，即使输出的句子很长，也可以把每个输出词的上下文向量的信息重新放进去，所以性能可以提高一点点以上标准。即使你采用这样的另一种方法，瓶颈仍然是一样的，因为你必须将这个源语句压缩到一个向量中。
即如果是当前的问题情况，一个context vector，即因为context vector必须有源句中的所有信息
也就是说，解码器部分不仅有关于一个上下文向量的信息，还有每次创建输出词时来自源语句的输出值。
如果全部作为输入，你可能会想出一个主意，现代GPU内存很大，支持快速并行处理，所以即使源句的序列长度很长，源句的序列长度
性能有望提高，因为在以特定方式记录所有要解决的字段后，每次打印源语句的整体内容时，可以反映每个单词的输出。
换句话说，不是把它放在一个固定大小的上下文向量中，而是每次只接收源语句的所有输出值作为输入，并经过一系列的处理过程来创建输出词，这样可以提高性能。
你现在看到的架构就是应用了深蹲序列的注意力机制的架构。
通过这种方式，可以将注意力机制用于将所有输出锁定到编码器部分。
如果你让它使用相同的东西，输出值将与像这样在整个序列的每一次机会中所做的先前值分开出来。
该机制也可以简单实现，如果查看整体内容，每次这样输出一个词，出来一个预期的still tea，就把这些值都写成输出值，然后分开就好了
因此，每次我以这种方式遍历每个单词时，我都会更新所有 Hidden Street 值。
通过这样做，由于每个词在到达tee时都可以拥有所有的hill state值，所以这些值会以某种方式被引用，并且每次生成输出词时都会生成整个源句。
你可以把它看成是一个想法来体现，其实feed stent在关键代码部分是这样每次更新的。
通过使用区域值，将此输出阶段的收益街道角度和源的隐藏街道值捆绑在一起，并执行单独的矩阵乘法以创建每个能量值。
现在，这个时候，能量值就是用数值表示的值，我需要在源句中关注哪个词，才能输出当前词。
现在，将软件x取到这样一个能量值得到概率值后，通过对源句中每个隐藏的街道值赋予更大的权重，反映出哪个向量更适合参考来确定权重值。
根据每个比例加上乘以隐藏街道后，你现在可以考虑这样一种方式 td sum 值将反映每次创建一个输出词。
所以，不是像这样简单地引用上下文上下文，除此之外，从源语句输出的模型反映了所有的距离。
我们可以通过让我们的模型考虑我们是否可以聚焦并产生输出结果来进一步提高性能，换句话说，每次我们输出所有从源语句出来的输出。
这是通过引用所有的值来完成的，换句话说，不是只看一个这样的压缩上下文backto，而是得到一种考虑所有这些输出值的td sum vector，然后狗是这样的
可以提高性能，因为它可以通过将源语句放在一起作为输入来考虑有关源语句的所有信息。
如果用图形表示创建输出词的过程，可以这样组织，此时i-Van将是解码器当前正在处理的索引。换句话说，解码器每次都创建一个单词，正在计算的索引将是孩子。

也就是说anal house value在每次创建decoded output word的时候都会考虑所有的js，也就是你可以考虑encoder的所有输出字段。
现在，我们在这里处理的解码器将是我们之前输出并用来造词的隐藏街道。这是编码器部分每个红色状态的原因
也就是说，为了简化这个，我之前在decoder部分留下的信息就是这个，我会把这个信息和所有的输出值进行比较
也就是说，我们可以找到与哪个h值相关性最大的能量值，现在我们对这些能量值取softmax l得到概率值
也就是说，在这些h值中找到与任何一个值最相关的质量其实是成正比的，而现在这些权重值实际上是随着h值而变得高的，而每个encoder在这些权重下的输出结果reflected 被添加和使用了。所以这个图其实是论文里展示的图，限制了这个attention机制。现在你看一下，是一样的，能量和权重的公式是一样的。你可以把它做成使用值。
我在本节中使用它来创建当前 id 状态，即 st，并通过将所有隐藏的街道值与每个角度和此编码器部分绑定在一起找到能量值后，现在我将软件 x
我可以这样得到ratio值 House 那些ratios会分别是2a 比如输入句子是I am a teacher, I will say
这时候我是老师，每个字里面哪个是最参考的质量，百分比值就是这样换算成百分比页数的。
Richard 5% 这样，你可以找到概率值，使得当它加起来为 100 时，将实际的 2h 值乘以那个比率，你就可以将它用作这个上下文向量。
所以，每次输出的时候，都可以通过像这样反映源句输出的所有head state值，来创建g来next输出
现在，所以每次我创建一个这样的输出词时，我都可以让它反映源中句子中出现的所有头枕意义值并使用它。
换句话说，再次总结一下术语，得到这个能量值是为了找出它与源语句的所有输出值中哪个值最相关。现在
可以说将每个band放入softmax得到的相对概率值就是权重。
你可以把它看作依赖于把它放在一起。现在，如果你以这种方式使用一种机制，不仅性能会提高，而且作为一个额外的优势，它还可以作为注意力的主要来源。
这样，通过attention weight，也就是得到的概率值，每次输出出来，就可以找出输出在输入中指的是什么信息。
Under European 是这样出来的，现在，当你有这些词的时候，每打印 2% 的词，你想找出这些输入的词中哪个词最受关注。
有一个数字，现在，这种方式中亮的部分，可以说是概率值高的部分。
这样每次输出的时候，都可以找出输入词中哪个词的权重更大，来进行Attention 2。
基本上，由于 Ziller Ring 的参数如此之多，要想通过分析一系列详细的参数来了解它的工作原理并不容易。
现在，正因为如此，注意力机制实际上可以更容易地分析 Dylan 制作什么样的数据的过程，更专注于他制作的元素。
那么，今天公开的transformer论文是如何运作的呢？
Transformers 4 正如我所说，它是现代Dylan术语半切处理网络中的重点论文之一。所以论文的原标题是Attention 2 Upload。

字面上的意思是，即使你用好注意力，你也可以在各种自然语言处理任务中获得不错的表现。
你并不真的需要它。你可以从字面上做各种自然语言处理任务，从一个馒头开始，只使用任何一个馒头。
右图是原论文中dress parent的架构图，这里其实根本没有用到Array和cnn。
当然，如果您完全不以这种方式使用 ice anthea，则很难提供有关问题中每个单词顺序的信息。
因此，转换器可以通过单独使用位置编码来提供有关顺序的信息，以告知有关句子中每个单词的顺序的信息。
现在，这个架构已经在future bolt days、gpt等更高级的网络中采用了，另外，作为参考，没有使用，但是一样的，都是由encoder和decoder部分组成。
此外，它不是一次编写任何整个过程，而是让它重复 2 层，也就是说，它使 1 丢失并且更多与你重叠，也就是说，它与琥珀重叠。
作为参考，在您现在看到的图片中，左侧部分将是编码器，右侧按钮将是解码器。
为了将其放入网络中，它通常会经过一个正常的步骤。这样做的原因是，在一开始，输入维度本身就等于特定语言中可以存在的单词数.
由于每条信息都是以raw deal coding的形式表达的，所以一般在放入网络时，先通过乘法过程表示为较小维度的连续1值。
意思就是可以表示成任何实数。所以，比如像我是老师这样的句子这样进来的时候，其实是创建成一个imp，比如matrix。这个时候，一般

矩阵的动作大小与单词的数量一样多。
由于当前图片中总共有四个这样的词，所以像这样对每个词包含词的信息的embedding
你可以获取每个值，你可以通过这种方式获取所有值。
本文中使用了512左右的值，当然这个值可以根据每个创建模型架构的人设置不同。
Anyway，所以这样一来，传统的berry就可以看做是一个层，用来在将输入值放入网络之前，以一种随机的形式来表达输入值。
这时候如果我们使用一个基于成人的架构比如sequence序列，仅仅通过使用child，每个词在进入数组的时候自动按顺序进入，所以每个head state值自动按顺序进入
如果成年人不使用自己，例如变形金刚，来提供有关位置的信息，即在句子中包含的每个单词之间
为了给出这样的信息，哪个词在前面，哪个词来到耳朵，就需要使用包含位置信息的标点符号。
现在，为了这个目的，transformer使用positional encoding，也就是positional encoding，对位置信息进行编码。
就是通过添加具有单独位置信息的编码信息，并将其添加到每个人才yg中，让网络知道每个单词的顺序信息。
现在，写入实际包含位置信息的输入值，以便您可以将其放在实际值之前。
它是一个包含位置信息的输入值。现在，我收到该输入并使用每个词赢得 1 个关注现在，编码器部分执行的注意力称为自注意力，用于找出每个单词之间的关系。
比如我是老师这句话这样进来的时候，我是老师，构成这个分子的每一个词，都从彼此那里获得一个attention score，这样每一个词和其他任何一个词都有很高的相关性。
换句话说，像这样的东西是为了让它很好地学习关于整个输入句子的上下文信息。
此外，这里还额外使用了 Les Jewelry 等技术。在这种情况下，例如 Reds Journaling，它是在 Reds Map 等网络中使用的技术，这是一个具有代表性的图像分类网络。
不是简单的重复更新，而是指跳过特定层，将复制的值原样放置的技术。这样，就可以通过跳过特定层来输入
总的来说，叫做Reds Dual Collection，这样整个网络在接收已有信息的同时，只学习额外的子部分，所以整体学习难度较低。
一开始，模型收敛速度增加，结果找到一个全局词的概率增加，所以总体来说，对于各种网络，Reds Jewelry 在使用时可以看到很多性能提升。
变形金刚也可以说是完全重新接受了这样的想法，提出了声明。
这是编码代码的运行过程，所以实际上像这样听输入
从欧洲接一些线到外面后，guy riga段，然后是耳机层，然后红饰品和马来弟子就这样加上了，结果在一个encoder层
通过这种方式，我们喜欢通过重复 o pension 和 normalization 过程来重叠多个层。

此时需要注意的一点是，每一种人造丝n都有不同的参数。
feed-forward layer衣服的参数不一样，另外这个时候可以推断层可以重叠使用，但是输入值和输出值是一样的。
现在，在现实中，整个encoder可以画出一个d-code架构如下，这样输入值进来之后，重复几个encoder层，最后从encoder出来的输出
值在g-code中是这样输入的，之所以这样给是因为，就像我们之前使用cos cos模型的attention机制的情况一样，在g-code部分，每次输出都要输入
换句话说，g代码部分也是由几层组成的，最后一层的输出值是
其实输出的word就是我们叛逆的结果，此时每一层都接收上一层的输出值作为这个encoder的输入，这是transformer最基本的操作
当然，这样种群并不是只接收部分最后一层的输出，还有一种技术是通过这种方式接收每一层的输出值。
不管怎样，基本的transformer架构的运行方式是每次在d代码的层中将最后一层的输出值放入编码器中。
接下来在加上encoding values后加入input，告知每个词的相对位置信息，参考一下，两个attention买了一个Zico层。
首先展示的attention是self-attention，和encoder部分一样，都是通过让每个word互相找出what weight来学习输出句子的整体表达。
然后，在解码器层的第二个 Attention 中，有关编码器的信息可用于 Attention。

换句话说，每个输出词接收要编码的输出信息并使其可用，换句话说，每个输出词对应于源语句中的一个词。
所以，这里展示的attention，一般称为encoder decoder tension。用一个简单的例子来说明操作逻辑
比如约会语句是I am a teacher，输出值会依次这样，老师们都会这样吐出自己的主力。
如果是这样，就可以找出老师与我是老师中哪个词的相关性最高。通过每次通过注意力计算该信息，编码器部分的输出如下所示
可以设计网络以充分利用结果。现在，每个解码器层重叠多次，使其通过输入并通过 2 个输出和输入进行转换。
换句话说，你可以在我身上再次使用这个跟踪，其中最后一层的输出丢失，并且在每次操作后立即输入该层的输出。
此时总列数为4，举例如下，一般情况下1 type a的列数为1，往往把code和decoder调成一样比较好。
也就是说，你可以看到encoder和keycoder都是由四层组成的，你可以看到encoder部分最后一层的main value被输入到每个coder层。
这里作为input的意思就在Zico Dolty的second attention中，我们刚刚在图中查到了，每个tracking word计算的是与input中的一些信息相关度最高的true。
你可以看到它被使用了。另外，正如我所说，转换器遵循 ing 代码和 g 代码的结构。
它的特点是全部放出来，这里比较有意思的是encoder，即lst m2 naul等，使用固定大小，用于这个输入stitch。

如果每次通过重复遍历编码器层的次数来创建提要状态，则在转换器中，输入词本身一直连接到一个输入，并且可以说某个值因为它是立即获得的。
换句话说，不像孩子们使用的时候，他们可以一次性放入位置信息，并在每次通过编码器时并行获得输出值。
正因为如此，计算复杂度一般比大人用的时候要低，而且在实际进行学习的时候，这些输入值可以一下子放入信息中，所以学习不是用来冰的。
好处是可以继续，但是现在真正从模型导出输出值的时候，同样用二维码架构重复几次，直到这个os出来
看的话，中间压缩context vector的过程完全省略了，所以网络本身有一个adult-and-structure比如l stm
完全不用用是一个优势，现在我们来看看2 multi-head attention 2到底是什么，这样在tres parent中用到的每个attention都有multiple heads
之所以叫multi-event attention，是因为它有，实际结构如下，右图是multi-ten之前的图。
这时中间的Attention 2使用了Skell daytime powder，这个Scandal 4 Proud Ger Tension的构图如左图所示。
我需要它 Eat Cory 建议询问要写什么。
这时候查询的主题就是query，查询的主题就是key，比如当有一句话叫我是老师的时候，
为了直接看到每个包含的单词与其他单词的关系，你可以进行自我怀疑，在这种情况下，孩子这个词是关于每个单词的

假设地球是如何连接的，那么孩子就变成了一个问题。我是老师。每个单词都变成了一个关键。
如果要做的话，就是通过这种方式得到每个key的tell score，这个时候得到score之后，其实就是乘以van pieces
可以得到attention bathing的值，查一下的话，这样问的主题，也就是query进来，每次attention要执行的词，都输入到k中。
因此，在尽可能简单地拼写解决方案并用必要的掩码覆盖它之后，您现在可以使用 softmax 来找出每个键中哪个词具有最高相关性的比率
我们前面研究的attention机制