【NLP Transformer】机器学习中自回归、自编码、Seq2Seq模型的区别

本文详细比较了机器学习中自回归、自编码和Seq2Seq模型的区别,阐述了编码器-解码器架构的基本原理,并介绍了Transformer在这些模型中的应用,特别提到了GPT和BERT模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习中自回归、自编码、Seq2Seq模型的区别

转译自Differences between Autoregressive, Autoencoding and Sequence-to-Sequence Models in Machine Learning
December 29, 2020 by Chris

Transformers改变了机器学习在自然语言处理中的应用。这类模型取代了LSTMs成为可以通过机器学习解决多种语言和文本相关任务的最先进(SOTA)方法。

然而,正如我们之前看到的,当范式转向不同 的方法时,一个突破会催生大量的新研究,从而产生大量的小改进。例如,我们已经在计算机视觉中的卷积神经网络(ConvNet/CNN)中看到了这一点:在20123年提出AlexNet之后,这个方法以前所未有的优势赢得了ImageNet比赛,接着各式各样的卷积框架被提出、测试和构建用于图像相关任务。

对于Transformers来说也是这样:在2017年该项工作被Vaswani等人提出后(Attention Is All You Need),改变了sequence-to-sequence模型的性质,许多不同的架构进而被提出。

但是,这些拓展研究的共同点是它们都用各式各样的术语来描述模型的各部分。当你阅读相关文献的时候,你会发现有一些模型被称为自回归(autoregressive),另一些被称为自编码(autoencoding)或者序列到序列(sequence-to-sequence / seq2seq)。作为初学者,这可能会令人困惑,因为当你尝试理解Transformers时,你会将所有东西和基础的Vaswani Transformer进行比较。

这正是本文讨论这三种编码器-解码器(encoder-decoder)架构的重叠差异的原因。我们首先会介绍编码器-解码器架构的基础知识,以提供最必要的背景知识。本文还简要介绍了经典或Vanilla(香草,计算机领域是普通的标准的、无扩展的意思)Transformer架构。接着,我们转向自回归模型,紧接着会介绍自编码模型,并且会看到当这两种模型组合时,我们就得到了Seq2Seq或者叫序列到序列模型。在总结之前,我们最后还会提到多模态(Multimodal)和基于检索(retrieval-based)的架构。

准备好了吗,让我们来看一下!😎

编码器-解码器架构介绍

本文中,我们将介绍自然语言处理中使用的三种(一般)模型架构的重叠和差异。为了做到这点,首先我们需要了解所谓的编码器-解码器架构,因为其他每一种架构类型都和这种架构的思维方式有关。

编码器-解码器架构由编码器和解码器构成。编码器能够接收输入,例如用德语写的句子(序列),然后将它们映射到高维表示(representation)上。编码器在这里学习输入的哪些部分是重要的,并将其传递给表示,而不太重要的方面被忽略。我们人类并不容易理解表示,因为没有涉及语义,而是学习其映射关系。

然而, 当我们在架构中增加一个解码器,我们可以将这个高维表示转化为另外一个序列。举个例子,这个序列可以是一个用英语写的句子。添加一个解码器和一个编码器允许我们构造一个能够将“一种形态”转换(即无语义损失的映射)为“另一种形态”的模型,比如德语转为英语。通过同时训练编码器和解码器,我们就建立

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值