Seq2Seq，自回归，自编码介绍_自回归与自编码 seq2seq-CSDN博客

本文链接：https://blog.csdn.net/zhaosuyuan/article/details/140995927

机器学习模型：生成式模型和判别式模型
生成可以分为两种模式：自回归（autoregressive）和自编码（autoencoding）
原始版/经典/ Vanilla Transformer架构: encoder+decoder框架
（Vanilla香草，计算机领域是普通的标准的、无扩展的意思）

编码器-解码器（encoder-decoder）架构：
（1）编码器训练将输入序列转换为隐藏表示，通常是一个高维的隐藏状态向量。将每一个项转换为包含该项和其上下文的相应隐藏向量。
（2）解码器能够将隐藏状态向量转换为期望的输出，使用之前的输出作为输入上下文。

1.Seq2seq 序列到序列
大多使用encoder+decoder框架，但不是必须的如RNNs。该架构编码器输入转换为隐藏高维向量表示，解码器隐藏向量转换为期望输出。
常见任务：自然语言理解、机器翻译、语音识别、文本摘要等。
Vanilla Transformer是Seq2Seq模型：encoder+decoder框架

2. 自回归 autoregressive
自回归是自然语言处理模型的一种训练方法，其核心思想是基于已有的序列/词/字符来预测下一个元素。
根据上下或下文信息预测下一步单词：
从左到右的语言模型：根据上文预测后面的单词
从右到左的语言模型：根据下文预测前面的单词
常见任务：NLG自然语言生成、相似度检测、选择题回答

生成式自回归Transformer GPT
embedding-12x解码器-output
embedding具有许多标记的向量。即可以反复使用，有自回归性。
自回归包含语言建模的任务：模型需要学习一种语言和词汇短语之间的相互依赖关系，包括语义。
GPT模型的训练和推理：
（1）训练中的“自回归”
GPT通过大量文本数据进行学习，模型会接收一个词序列作为输入，然后预测下一个词。损失函数主要用于衡量模型预测与实际词之间的差异。

（2）推理中的“自回归”
GPT模型生成文本，首先，我们提供一个初始的种子文本(即提示或指令)，然后模型根据这个种子文本生成下一个词。生成的词将被添加到文本中，继续输入模型，模型会接着生成下一个词，以此类推。这个过程会一直进行，直到生成一定长度的文本或遇到特定的结束符。

在生成文本时，GPT通常会根据词的概率分布来选择下一个词。这可以通过多种策略实现，如贪婪搜索-总是选择概率最高的词，集束搜索-同时考虑多个可能的词序列，采样方法根据词的概率分布随机选择词等。

3.自编码 autoencoder
根据上下和下文信息预测缺失单词，即根据缺失单词左边和右边的单词，预测该mask掩码位置单词。
自编码模型是通过以某些方法破坏输入标记并尝试重建为原始句子来训练的。
mask掉的单词就是在输入侧加入的噪声。输入侧引入mask标记，导致预训练阶段和finetune阶段不一致问题，因为finetune阶段看不到[mask]标记
自编码 Transformer Bert：无监督数据集预训练，下游任务模型微调，如问题回答。称为DAE LM。
常见任务：NLU自然语言理解

架构选择：
Seq2Seq，自回归还是自编码取决于任务和训练的类型，而不是架构。
（1）Seq2Seq模型：模型作为一个整体转导（即在不改变语义的情况下转换）一个序列到另一个。
（2）自回归模型：使用所有之前所有的预测来产生下一个预测，并以一种周期性的方式。
（3）自编码模型：通过破坏输入并生成原始输入的变体来学习编码表示。
自回归模型和自编码模型唯一的区别在于模型预训练的方式上。因此，同样的架构能够被用于自回归和自编码模型。