2017 年至今 Transformer 架构变化

人工智能大模型讲师培训咨询叶梓

于 2024-10-01 20:57:05 发布

阅读量273

点赞数 3

文章标签： transformer 深度学习人工智能自然语言处理语言模型机器学习智能体

本文链接：https://blog.csdn.net/weixin_44292902/article/details/142674640

版权

转自公众号DeepPrompting

阅读有关LLM的文章，可以看到如“我们使用标准Transformer架构”之类的短语。但“标准”是什么定义，自原始文章以来是否有变化？

有趣的是，尽管 NLP 领域已经经历了 5 年的高速增长，但 Vanilla Transformer 仍然坚持林迪效应，即事物越旧，未来存在的时间就越长。

“Lindy Effect（林迪效应）是一个源自纽约市林迪熟食店的概念，指的是一种非易腐性事物（如技术、观念或文化现象）的未来寿命与其当前年龄成正比的观念。简而言之，某物存在的时间越长，它可能继续存在的时间就越长。

这个概念在讨论技术、书籍、思想甚至社会结构时变得流行。例如，一本已经出版了100年的书可能会再保持100年的畅销，而一本新出版的书可能没有这么长的未来。”

下面总结图中的5大变化：

（1）以语言模型（即仅解码器）LLaMa-2 为例，让我们看看 LLM 的主要架构改进：— Post LayerNorm → Pre LayerNorm (https://arxiv.org/abs/2002.04745)。这使得收敛更加稳定。现在，这个过程的进行方式是原始嵌入简单地通过解码器块，并且来自 FFN 和 Attention 的“调整”被添加到其中--Residual Connection方式。