为什么现在的LLM都是Decoder only的架构？

woshicver

于 2024-04-17 19:03:12 发布

阅读量21

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NTUwNjQ1Mw==&mid=2247520283&idx=1&sn=033a8467508ad32b5d35428b8730f520&chksm=fdc1719975f7583d7b82505c611574e8dcc6bb726f13a372dc2cefe92c4c9d5849624bfe634b&scene=126&sessionid=0

版权

链接：https://www.zhihu.com/question/588325646

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

作者：匿名用户

https://www.zhihu.com/question/588325646/answer/2929459138

关注点应该是模型属于Autoregressive(AR)还是Non-Autoregressive(NAR)范式，选择encoder+decoder还是decoder only只是在敲定AR或NAR范式之后的实现。

虽然现有开源框架支持cache，可以加速AR model的生成速度，但理论上NAR还是会比AR快上几十倍（与实际生成文本长度有关）。现有LLM均采取AR的理由有2点：1. AR范式公认在生成类任务上效果好，2. 实现思路是成熟的没有太大争议。反观NAR虽然理论上速度很快，但是1. 在生成类任务比不过AR（虽然有些paper宣称是可以达到的，但实际上data和model size都没有scale up），2. NAR范式下生成任务的解决方案五花八门，没有一个可以被称作“主流”的方案，在LLM的语境下探索风险非常大 3.比较可行的NAR模型将会是heavy encoder + shallow decoder + rewriter的架构（可以对照人类行为，当获得指令后进行理解，生成关键词/大纲，然后基于关键词/大纲进行写作），model size能否跑赢现有NAR需要做很多探索。

最后想说，针对长文本的处理，用户可以容忍的等待时间（几分钟或几小时）是允许AR LLM操作的，所以也就没人专门去做NAR LLM了。

作者：知乎用户
https://www.zhihu.com/question/588325646/answer/2929524026

我不是做大生成模型的，数据压缩是在做超级小的生成模型

从OpenAI在ICLR 2017年的一篇论文（Variational lossy autoencoder）来看：

对于比较强大的autoregressive decoder来说，encoder起的作用不大。作者提了一个基于bits-back coding的解释，VAE模型倾向于优先使用autoregressive decoder来建模数据，而直接忽略掉encoder学习到的latent representation。（这一点在LLM是否成立我没有check）

将来要考虑效率的时候，可能就要看semi-autoregressive（或NAR）decoder或更小的decoder架构，在这种情况下，只采用decoder架构未必能取得效率-精度的最佳权衡

但是效果这么好，但是还不够好，感觉短时间不太会在乎效率

(有时间track更新的论文再更。。。

作者：卡卡卡卡比
https://www.zhihu.com/question/588325646/answer/3422119129
这个问题我有测试过，我认为模型参数量上去，encoder decoder架构的计算效率（特别是attention部分）是大问题。

之前实习有尝试过10B左右的encoder decoder vs decoder only，同参数量能力差距不大（前者还略强点），但是前者要训练时间是后者的2-3倍。小模型还看不太出，试问公司训练一个100B量级的模型，训1个月和训2个月这样的成本差别是有多恐怖？

除此之外，其实Scaling laws的相关论文也告诉我们，目前模型训练是数据token数量，模型参数量，损失之间存在幂律关系。所以模型结构在其中是一个不关键的事情，即llm训练的性能是弱结构化的，所以自然要选择训练成本更低的方式。

作者：Lin Zhang
https://www.zhihu.com/question/588325646/answer/3405060345

简单来说，这是数据决定的。

很多回答脱离数据本身的特性，空谈transformer encoder和decoder模型的好坏，其实都没讲到重点。

大模型成功的关键，在于如何在大量的文本数据上做无监督学习。其实，对于文本数据进行建模的思路一直很清晰，那就是语言模型，也就是

p(w1,w2,...,wt)=p(w1)p(w2|w1)...p(wt|w1,w2,...,wt−1)p(w_1, w_2, ..., w_t) = p(w_1) p(w_2|w_1) ... p(w_t|w_1, w_2, ..., w_{t-1})

这是因为语言天然就有序列性，用条件概率来分解联合分布是非常自然的选择。对于条件概率，也就是所谓的next token prediction问题，自然适合用rnn或者表达能力更强的transformer decoder来解决。

语言模型其实没什么好说的，现在更难的问题是怎么在大量的图像数据上做无监督学习。图像本身并没有简单的序列性，强行建模成next visual token prediction问题，并用transformer decoder来解决不一定是最优方案。起码在当前的ViT模型中，包括diffusion transformer，我们用的还是双向注意力，而不是单向注意力。

最后，摘抄几句GPT-2论文里的原话来佐证一下我的观点。

At the core of our approach is language modeling.

Since language has a natural sequential ordering, it is common to factorize the joint probabilities over symbols as the product of conditional probabilities.

In recent years, there have been significant improvements in the expressiveness of models that can compute these conditional probabilities, such as self-attention architectures like the Transformer.

casual attention 意味着 token之间的依赖关系，flash attention2 + memory efficient 技巧可以在下三角attention上有很好的优化。

但是encoder only + MLM 仍然有价值：现在的模型generation 是一个一个 token生成，归根还是decoder only next token目标函数，有没有可能一次预测 M 个 token？

这就是MLM的魅力。

实际上语言学对次证明人类识别由关键词组成，不受顺序影响，所以，一次 N 个 token的目标函数还是有机会爆发的，encoder这种无顺序依赖仍有可取之处。

research 要有前瞻性。我很关注ViT 因为图像识别是没有顺序的，所以我有一个简单的想法将ViT的 encoder逻辑套用到 LLM 有机会一次产生对个 token ，可以显著加速 generation

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 woshicver」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓

woshicver

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为什么现在的LLM都是Decoder only的架构？

链接：https://www.zhihu.com/question/588325646编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：匿名用户https://www.zhihu.com/question/588325646/answer/2929459138关注点应该是模型属于Autoregressive(AR)还是Non-Autoregressive(NAR)范式，选择encoder+d...
复制链接

扫一扫