Transformer解码器自回归机制详细介绍

科学禅道

已于 2024-04-01 10:54:46 修改

阅读量5.8k

点赞数 15

分类专栏：深度学习模型专栏文章标签： transformer 回归深度学习

于 2024-04-01 10:40:17 首次发布

本文链接：https://blog.csdn.net/xw555666/article/details/137223436

版权

深度学习模型专栏专栏收录该内容

69 篇文章

订阅专栏

1. 自回归机制

在基于Transformer和其他许多序列到序列学习架构的神经机器翻译系统（其他任务具有类似的规律）中，解码器采用自回归机制来逐词生成目标语言句子。具体来说，对于每个时间步t，解码器会利用以下两部分信息来预测第t个目标词：

先前生成的单词：解码器会把到目前为止生成的所有目标语言单词作为输入，但每次预测时只使用到前一个时刻生成的词。也就是说，在预测第t个词时，解码器仅依赖于从开始标记到第t-1个词的所有历史信息。
源语言的上下文向量：编码器对整个源语言句子进行编码后得到的上下文向量（也称为“编码器输出”或“注意力上下文”），这一向量包含了源语言句子的全局语境信息。解码器在每一步预测时都会与该上下文向量交互，通过注意力机制获取针对当前要生成词的源语言相关信息。

解码器通过自回归的方式逐步生成目标语言序列，并且实时结合源语言的上下文信息，确保翻译质量和流畅性。

2. 自回归的执行过程

具体来说，在Transformer的解码器架构中，自回归（Autoregressive）机制确保了在生成目标语言序列时遵循从左至右的时间顺序。具体步骤如下：

初始化：解码器开始时，第一个位置（t=0）的输入可能包含特殊的“开始符”标记，代表序列生成的起始点。
利用编码器输出：在解码器的每个时间步t，它都会接收到编码器对整个源语言文本生成的上下文向量表示，这一向量包含了源语言句子的完整信息。
自回归生成：对于每个后续的时间步t > 0，解码器除了利用源语言的上下文信息外，还会结合在时间步t-1生成的目标语言单词的隐藏状态来预测时间步t的单词。这意味着解码器在生成第t个单词时只能看到之前生成的所有单词（t-1, t-2, ..., 1），而不能“看”到未来还未生成的单词。
掩蔽操作：为了确保自回归性，解码器内部的自注意力层会对当前位置之后的时间步进行掩蔽（masking），使其无法访问未来信息，只允许根据历史已生成的信息进行预测。
概率预测：基于以上处理过的输入，解码器会输出一个概率分布，该分布表示在当前时间步生成各个目标语言单词的可能性。
选取最高概率词汇：根据概率分布选择概率最高的目标语言单词作为当前时间步的预测结果，并将其作为下一个时间步的输入的一部分。

通过这样逐词递归的过程，解码器得以生成完整的、连贯的目标语言文本。

3. 上下文向量的意义和理解

上下文向量在自然语言处理和深度学习领域具有重要价值，尤其是在处理序列数据如文本时。在Transformer模型中，上下文向量是源语言句子中每个单词的高级表示，它融合了句子中所有其他单词的相关信息。

意义：

信息压缩：上下文向量是对整个句子内容的紧凑概括，包含了单词与其前后文的关系和依赖信息。
长程依赖建模：不同于传统的循环神经网络（RNN）只能依赖最近几步的状态来处理序列数据，上下文向量能一次性考虑整个序列的上下文，从而更好地捕捉远距离的依赖关系。
高效计算：在Transformer中，通过自注意力机制并行计算所有单词的上下文向量，提高了处理长序列数据的效率。

理解：在Transformer模型的编码阶段，每个单词经过自注意力机制后，得到的上下文向量反映了该单词在整个源语言句子中的语境含义（上下文向量是这个语境意义的量化表示）。换句话说，当我们查看某个单词的上下文向量时，实际上是在查看模型对该单词在特定句子情境下的理解。在解码阶段，解码器会依据这些上下文向量和自身生成的序列历史信息，逐步生成目标语言文本。

所以，上下文向量是Transformer理解和处理序列信息的核心工具，它成功地解决了深度学习模型在处理序列数据时面临的长程依赖问题，并提升了模型在机器翻译、文本摘要、问答系统等多种任务上的性能。

4. 上下文向量的计算过程

在Transformer架构中，源语言文本首先会被输入到编码器部分。编码器由多层Transformer块堆叠而成，每一层Transformer块内部都包含自注意力子层和前馈神经网络子层，这两个子层共同作用于输入序列的嵌入向量上。

每个单词在进入编码器之前都会先转换为其词嵌入形式，同时可能还会附加位置编码，以便模型能够捕捉到序列中单词的位置信息。
在自注意力子层中，模型对输入序列中的每个单词进行自我关注，这意味着每个单词都可以“看到”序列中所有其他单词的信息，并基于这种全局视野动态调整自身的隐层状态。这一过程形成了单词的初步上下文相关表示。
随着信息通过多层Transformer块逐层传递，模型对源语言文本的上下文理解逐渐深入和抽象化。每经过一个Transformer块，单词的上下文表示都会进一步整合来自不同位置和层次的语义信息。
经过所有编码器层之后，每个源语言单词都将获得一个高度抽象且富含上下文信息的向量表示，这个向量不仅包含了单词本身的含义，还综合了句子乃至篇章级别的上下文知识。

这样的上下文向量随后可以被解码器用于生成目标语言文本，确保在翻译或者其它序列生成任务中充分考虑到源语言文本的所有相关信息。

5.上下文向量的计算步骤

在Transformer模型中，上下文向量的计算主要通过自注意力机制（Self-Attention Mechanism）来实现。以下是详细的步骤：

词嵌入和位置编码:
- 输入的源语言句子中的每个单词首先经过词嵌入层，将每个单词映射成高维向量。
- 由于Transformer没有明确的时间步依赖顺序，还需要加上位置编码，将每个单词的位置信息加入到其对应的词嵌入向量中。
线性变换和分拆:
- 将带有位置编码的词嵌入向量通过三个全连接层（Linear Layers），分别生成Query(Q)、Key(K)和Value(V)向量。
- 每个单词都会对应一组Q、K、V向量，这三个向量维度相同。
计算注意力权重:
- 计算 Query 和 Key 的点积，然后除以根号下Key向量的维度（平方根开方防止数值过大），再通过softmax函数归一化，得到每个单词对其他所有单词的注意力权重分布。
```
1 Attention(Q, K, V) = softmax(Q * K^T / sqrt(d_k)) * V
```
其中d_k是Key向量的维度。
多头注意力（Multi-Head Attention）:
- Transformer不只计算一组QKV，而是并行地计算多组（例如8组），形成多头注意力机制。
- 每个头的输出是独立的上下文向量，最后将所有头的输出拼接起来，并再次通过一个全连接层（线性变换），得到最终的上下文向量。
堆叠自注意力层和前馈神经网络层:
- 上述计算过程在一个自注意力层中完成，Transformer模型通常会堆叠多个这样的层，每一层的输出都是对源语言句子的更高级别的上下文理解表示。
- 每个编码器块还包括一个前馈神经网络（Position-wise Feed-Forward Networks，FFNs），进一步增强上下文向量的表达能力。