2017 年至今 Transformer 架构变化

转自公众号DeepPrompting

阅读有关LLM的文章,可以看到如“我们使用标准Transformer架构”之类的短语。但“标准”是什么定义,自原始文章以来是否有变化?

图片

有趣的是,尽管 NLP 领域已经经历了 5 年的高速增长,但 Vanilla Transformer 仍然坚持林迪效应,即事物越旧,未来存在的时间就越长。


“Lindy Effect(林迪效应)是一个源自纽约市林迪熟食店的概念,指的是一种非易腐性事物(如技术、观念或文化现象)的未来寿命与其当前年龄成正比的观念。简而言之,某物存在的时间越长,它可能继续存在的时间就越长。

这个概念在讨论技术、书籍、思想甚至社会结构时变得流行。例如,一本已经出版了100年的书可能会再保持100年的畅销,而一本新出版的书可能没有这么长的未来。”

下面总结图中的5大变化:

(1)以语言模型(即仅解码器)LLaMa-2 为例,让我们看看 LLM 的主要架构改进:— Post LayerNorm → Pre LayerNorm (https://arxiv.org/abs/2002.04745)。这使得收敛更加稳定。现在,这个过程的进行方式是原始嵌入简单地通过解码器块,并且来自 FFN 和 Attention 的“调整”被添加到其中--Residual Connection方式。

图片


(2) — 绝对位置嵌入 → RoPE (https://arxiv.org/abs/2104.09864)。该方法本身是根据位置将令牌嵌入旋转一定角度。而且效果很好。此外,该方法还进行了许多修改,以将上下文扩展到非常大的数字。

图片

(3) — ReLU 激活 → SwiGLU (https://arxiv.org/abs/2002.05202)。门控线性单元(SwiGLU 所属的一系列方法。它添加了矩阵逐元素乘法的运算,其中一个矩阵已通过 sigmoid,从而控制从第一个矩阵传递的信号强度)添加了一点 提高多项任务的质量。

图片

(4)LayerNorm → RMSNorm (https://arxiv.org/abs/1910.07467)。RMSNorm 在计算上更简单,但具有相同的质量。

图片

(5)注意力修改(https://arxiv.org/abs/2305.13245),例如,每组 Q 矩阵一次使用一对 K-V 矩阵。这种改进主要已经影响了推理的优化。但也有大量旨在降低运算二次复杂度的方法。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值