大模型里prefix-decoder、casual-decoder、encoder-decoder区别

泽也AI-Monster

于 2024-04-28 17:58:36 发布

阅读量910

点赞数 23

文章标签：深度学习人工智能 transformer

本文链接：https://blog.csdn.net/weixin_45965387/article/details/138285427

版权

标题

主流架构体系

主流架构体系

大模型主要架构分为三种：prefix Decoder 系、causal Decoder 系、Encoder-Decoder。

Prefix Decoder 系：适合那些需要理解全文上下文并基于此生成下文的任务。输入部分使用双向注意力，输出部分使用单向注意力。

Causal Decoder 系：适合那些需要生成文本并保证生成顺序符合因果关系的任务，如写故事或文章。无论是输入还是输出，都使用单向注意力。

Encoder-Decoder系：适合那些需要理解完整输入序列并生成一个结构化输出的任务。编码器使用双向注意力，解码器使用单向注意力。

prefix Decoder 系

Prefix Decoder，也称为非因果解码器，通常用于需要同时考虑整个输入序列的任务，如机器翻译、文本摘要等。在这些任务中，模型需要基于输入序列生成一个输出序列。Prefix Decoder 结构在训练时的特点如下：

双向注意力：在处理输入序列时，模型可以同时考虑序列中的所有词。
损失计算：在训练Prefix Decoder时，损失通常只在输出序列上计算。这是因为模型的目的是学习如何从输入序列映射到输出序列，而不是自回归地生成输出序列的每个词。
输出单向注意力：在生成输出序列时，Prefix Decoder 系模型采用单向注意力机制，即在生成第i个词时，只能使用之前生成的词的信息（1到i-1个词），而不能使用未来的词的信息。

损失计算：
由于其翻译或摘要性质，Prefix Decoder在训练时可能更关注于从输入到输出的映射，因此损失函数只针对输出序列计算，而不会考虑输入序列中每个token的生成概率。例如：你正在教小孩将一个法语单词翻译成英语。小孩需要知道整个法语单词是如何翻译成一系列英语单词的，而不是一个接一个地生成英语单词。因此，你将只对最终的翻译结果进行评价，这就是在输出上计算损失的概念。

代表模型：GLM-130B/ChatGLM-6B

Causal Decoder系

Causal Decoder，如GPT系列模型，是为了生成文本而设计的。它们采用自回归的方式进行文本生成，即一个词的生成依赖于它之前的所有词。在训练这类模型时，通常采用交叉熵损失来计算损失函数，具体如下：

单向注意力：Causal Decoder 系的模型，采用单向注意力机制，即在生成每个词时只能关注到它之前的词，不能使用未来的词的信息。
自回归特性：Causal Decoder 系模型在生成文本时，保证了生成的文本是自回归的，即每个词的生成只依赖于它之前的词，这保证了输出的因果连贯性。

损失计算：
由于其生成性质，Causal Decoder在训练时会考虑整个序列，损失函数通常对所有token计算，以确保模型学习到从开始到结束生成每个词的概率分布。想象你正在教一个小孩学习字母的顺序。为了确保小孩能够正确地按顺序说出整个字母表，你会对他说的每个字母进行纠正，这就是在所有token上计算损失的概念。

代表模型：GPT系列