【NLP Transformer】机器学习中自回归、自编码、Seq2Seq模型的区别

本文链接：https://blog.csdn.net/weixin_49986678/article/details/137631771

本文详细比较了机器学习中自回归、自编码和Seq2Seq模型的区别，阐述了编码器-解码器架构的基本原理，并介绍了Transformer在这些模型中的应用，特别提到了GPT和BERT模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习中自回归、自编码、Seq2Seq模型的区别

转译自Differences between Autoregressive, Autoencoding and Sequence-to-Sequence Models in Machine Learning
December 29, 2020 by Chris

Transformers改变了机器学习在自然语言处理中的应用。这类模型取代了LSTMs成为可以通过机器学习解决多种语言和文本相关任务的最先进（SOTA）方法。

然而，正如我们之前看到的，当范式转向不同的方法时，一个突破会催生大量的新研究，从而产生大量的小改进。例如，我们已经在计算机视觉中的卷积神经网络（ConvNet/CNN）中看到了这一点：在20123年提出AlexNet之后，这个方法以前所未有的优势赢得了ImageNet比赛，接着各式各样的卷积框架被提出、测试和构建用于图像相关任务。

对于Transformers来说也是这样：在2017年该项工作被Vaswani等人提出后（Attention Is All You Need），改变了sequence-to-sequence模型的性质，许多不同的架构进而被提出。

但是，这些拓展研究的共同点是它们都用各式各样的术语来描述模型的各部分。当你阅读相关文献的时候，你会发现有一些模型被称为自回归（autoregressive），另一些被称为自编码（autoencoding）或者序列到序列（sequence-to-sequence / seq2seq）。作为初学者，这可能会令人困惑，因为当你尝试理解Transformers时，你会将所有东西和基础的Vaswani Transformer进行比较。

这正是本文讨论这三种编码器-解码器（encoder-decoder）架构的重叠和差异的原因。我们首先会介绍编码器-解码器架构的基础知识，以提供最必要的背景知识。本文还简要介绍了经典或Vanilla（香草，计算机领域是普通的标准的、无扩展的意思）Transformer架构。接着，我们转向自回归模型，紧接着会介绍自编码模型，并且会看到当这两种模型组合时，我们就得到了Seq2Seq或者叫序列到序列模型。在总结之前，我们最后还会提到多模态（Multimodal）和基于检索（retrieval-based）的架构。

准备好了吗，让我们来看一下！😎