Transformer 三大变体之Decoder-Only模型详解_transformer decoder only-CSDN博客

本文链接：https://blog.csdn.net/xxue345678/article/details/144182120

一、前言

Transformer 的三大变体：Decoder-Only 专注生成文本，Encoder-Only 擅于分析文本，Encoder-Decoder 融合编解码实现文本生成和文本分析。

在这里插入图片描述

蓝色分支 Decoder-Only 模型：随着时间的推移，越来越多的 Decoder-Only 模型被推出，如 LLama、GPT 等，显示了这一分支的活跃度和发展势头。

粉色分支 Encoder-Only 模型：这些模型主要用于编码和表示输入序列，如 BERT、RoBERTa 等。

绿色分支 Encoder-Decoder 模型：结合了前两者的特点，既能够编码输入序列，又能生成输出序列，如 T5、GLM（清华）。

本文重点介绍Decoder-Only 模型，Decoder-Only 模型就如同一位即兴演讲者。你为他提供一个话题或者一个开头，比如“未来城市的模样”，他便能根据这个引子，滔滔不绝地展开演讲，描述出他心中的未来城市景象，直至演讲结束。模型擅长创造性写作，具备出色的文本生成能力。它能够根据已有信息，灵活扩展出新颖、连贯的内容，如自动生成文章、续写故事等。典型模型如OpenAI GPT、Meta LLama，用于文本生成，通过捕捉文本中的语言模式和风格，使生成的文本更加自然、流畅。

👀

Decoder-Only 模型的结构是什么？

Decoder-Only 模型只使用标准 Transformer 的 Decoder 部分，但稍作改动，如下图所示：

在这里插入图片描述

1、嵌入层（Embedding Layer）

- 将输入的 Token ID 序列映射到稠密向量空间，得到每个 Token 对应的嵌入向量。
- 位置编码（Positional Encoding）与 Token 嵌入向量相加，用于保留序列的顺序信息。

2、多头自注意力层（Multi-Head Self-Attention Layer）

- 使用因果掩码（Causal Mask）确保第 ttt 个 Token 只能关注它自己及其之前的 Token，避免“偷看”未来的 Token。

3、前馈网络（Feed-Forward Network, FFN）

- 对每个 Token 的隐藏状态独立应用两层全连接网络，增加非线性表达能力。

4、残差连接（Residual Connection）与层归一化（Layer Normalization）

- 提供稳定性并加速训练

5、输出层

- 最后一层是一个线性变换和 Softmax 函数，将隐藏状态映射为词表中每个 Token 的概率分布。
Decoder-Only 模型与标准 Transformer 的 Decoder 部分典型差异是少了编码器解码器注意层，即在 Decoder-Only 模型不需要接收编码器的信息输入。

👀

Decoder-Only 模型是如何工作的？

下面是 Decoder-Only 模型处理输入并生成输出的完整流程：

1、输入预处理

- 用户提供的文本 text（如 “I love”）。
- 文本经过 Token 化（例如 [“I”, “love”] → [104, 301]）和位置编码。

2、嵌入层

- Token ID 通过嵌入层映射到向量空间，例如：输入序列 [104, 301] → 嵌入向量 [[0.3, 0.2, …], [0.5, 0.7, …]]。
- 位置编码加到嵌入向量上，保留序列信息。

3、自注意力机制（Self-Attention）

- 每个 Token 生成查询（Query）、键（Key）和值（Value）向量，通过点积计算注意力分数。
- 因果掩码限制未来 Token 的可见性：对于序列 [104, 301]，第一个 Token（104）只能“看到”自己，第两个 Token（301）只能“看到”第一个和自己。
- 计算每个 Token 的上下文向量，更新嵌入信息。

4、前馈网络（FFN）

- 每个 Token 的上下文向量单独通过两层全连接网络，生成更高维度的表示。

5、输出概率分布

- 最后一层是线性层，将前馈网络的输出映射到词表的维度。
- 通过 Softmax 函数计算每个 Token 对应词表中所有词的概率分布。

6、生成下一个 Token

- 模型输出的是词表中每个词的概率分布，例如：“I love” → [0.1, 0.3, 0.6, …]
- 选择最高概率的 Token（如 “NLP”），或者通过采样算法（如 Top-k、Top-p）生成。
Decoder-Only 模型中只有一个解码器没有编码器，解码器部分能完成多种任务，包括理解用户输入和生成内容，使得单一的解码器结构能够处理复杂多样的自然语言处理任务，其关键原因是：
大规模预训练：Decoder-Only模型首先在大量的文本数据上进行无监督预训练。在这个过程中，模型学习到如何预测给定上下文后的下一个词，这不仅让模型学会了语言的语法、语义规则，还让它能够理解文本中的长期依赖关系。这种预训练使模型具备了对新输入的理解能力。
自回归生成：在生成内容时，Decoder-Only模型采用自回归方式工作，即根据前面已经生成或给出的文字来预测下一个最可能的词。随着每个新词的加入，整个句子的意义逐渐形成。这样的机制允许模型基于上下文生成连贯且逻辑一致的内容。

👀

没有 Encode 模块，Decoder-Only 模型如何理解用户输入的？

从上述工作流程中可以看出，Decoder-Only 模型没有显式的编码器模块，与 Encoder-Decoder 架构不同，Decoder-Only 模型不显式区分“理解”和“生成”阶段：

- Encoder-Decoder 模型：输入通过 Encoder 被编码为上下文向量，Decoder 利用这些向量生成输出。这种结构中，输入的理解与输出生成是分离的。
- Decoder-Only 模型：用户输入直接作为 Decoder 的输入，模型在自注意力机制中隐式完成理解和建模，同时为生成任务提供基础。

Decoder-Only 模型虽然没有编码器，但是不代表它不分析或理解用户输入。实际上，用户输入的分析和理解是在 Decoder 本身的自注意力机制（Self-Attention）中完成的，在自注意力层完成以下操作

- 输入序列的每个 Token 通过自注意力机制与整个序列中的其他 Token 进行交互。
- 自注意力机制计算了每个 Token 与其他 Token 之间的相关性（即注意力权重），从而捕获输入序列的上下文关系和全局语义信息。

例子：对于输入 “What is AI”,

- 自注意力机制分析 “What” 和 “is” 的关系，以及它们与 “AI” 的关系。
- 通过注意力权重，模型逐步提取输入序列的语义特征。

Decoder-Only 模型虽然也能分析或理解用户输入，但是因为结构差异，Decoder-Only 模型也存在一定的局限性：

1、输入长度受限于生成长度

- Decoder-Only 模型处理用户输入时，将输入视为生成序列的开头部分，与未来生成的内容共享同一序列窗口。
- 如果输入非常长，可能会占用较多的序列窗口空间，导致对上下文信息的捕捉不完整。
- 例如，GPT 模型可能在处理特别长的输入时无法很好地捕捉全局上下文。

2、隐式建模输入语义

- 用户输入的理解与生成目标共享同一个模块（自注意力机制）。这种共享机制可能在生成复杂输出时分散注意力，导致对输入的理解不够精确。

3、缺乏明确的输入表示优化

- Decoder-Only 模型没有独立优化输入表示的过程，这可能导致它对长文本、复杂结构输入的处理效果逊色于 Encoder-Decoder 模型。

虽然 Decoder-Only 模型在输入理解上略逊一筹，但可以通过以下方式弥补：

1、增加模型规模：更大的模型（如 GPT-4、GPT-4 Turbo）通过参数量提升，能够更好地捕捉输入信息。

2、优化训练数据：通过多样化、精细化的训练数据，让模型在隐式理解方面有更好的表现。

3、使用注意力机制增强：例如基于注意力稀疏化的改进，提升模型对长序列的捕捉能力。

👀

为什么会有 Decoder-Only模型，而不统一使用 Encoder-Decoder 模式？

1、模型架构的任务适配性

- Encoder-Decoder 模式是为“输入-输出”强耦合的任务设计的，例如机器翻译、问答和摘要生成。

-输入（源语言文本）需要被 Encoder 充分理解。

-输出（目标语言文本）需要由 Decoder 基于 Encoder 的表示生成。

- 对于“纯生成”任务（如对话、续写），没有明确的“输入”和“输出”分界，Encoder 的引入会显得多余。

2、Decoder-Only 模式的高效性

Decoder-Only 模型省略了 Encoder：
- 输入序列与输出序列在同一个模块中处理，避免了模型结构的复杂化。
- 在推理过程中，只需一次向前传播（Forward Pass），而不是 Encoder 和 Decoder 分别处理，推理效率更高。
- 适合那些不需要复杂输入分析的任务，如补全、对话生成。

3、更适合生成任务

- 很多实际应用（如 GPT 系列的应用场景）更关注生成的连贯性和语义丰富性，而不是对输入的复杂理解。
- Decoder-Only 模型通过大规模预训练，在语义生成上表现出卓越的能力，能够很好地满足这些需求。

4、训练数据效率高

自监督学习的完美适配：

- Decoder-Only 模型的训练目标是预测下一个 Token（Next Token Prediction），这是大规模预训练任务的核心目标。
- 这种目标与网络架构直接对齐，能高效利用海量的非结构化文本数据。
- Encoder-Decoder 模型需要额外设计输入输出配对的数据（例如源语言到目标语言的翻译对），数据准备成本更高。

总结：Decoder-Only模型通过一个统一的解码器模块实现了用户输入的隐式理解和内容生成，依赖于：