2024的新宠儿——Mamba(1):SSM

george_xu4

已于 2024-04-17 15:08:45 修改

阅读量1.2k

点赞数 34

分类专栏：大模型文章标签：自然语言处理人工智能语言模型

于 2024-04-17 15:08:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xzq_qzx_/article/details/137872916

版权

引言

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量可能会增长 1000 倍，计算效率非常低。

为了克服这些缺陷，研究者们开发出了很多注意力机制的高效变体，但这往往以牺牲其有效性特为代价。到目前为止，这些变体都还没有被证明能在不同领域发挥有效作用。

最近，一项名为「Mamba」的研究似乎打破了这一局面。

在这篇论文中，研究者提出了一种新的架构 ——「选择性状态空间模型（ selective state space model）」。它在多个方面改进了先前的工作。

作者表示，「Mamba」在语言建模方面可以媲美甚至击败 Transformer。而且，它可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升。消息一出，人们纷纷点赞，有人表示已经迫不及待想要把它用在大模型上了。

本文也就最近小编看到的一些资料整理一下Mamba的相关内容、发展背景以及核心技术的介绍。

Transformer的二次复杂度

简单理解的话，计算复杂度和序列长度的平方 $N^2$ 成正比，可以看一个小例子，比如两个相乘的矩阵大小分别为( $N \times d$ ) 和( $d \times N$ )，矩阵乘法的一种计算方式是使用第一个矩阵的每一行与第二个矩阵的每一列做点乘

因为我们需要拿第一个矩阵的每一行去与第二个矩阵的每一列做点乘，所以总共就需要 $N^{2}$ 次点乘。而每次点乘又需要d次乘法，所以总复杂度就为 $O(N^{2}d)$

精确理解的话，当输入批次大小为b，序列长度为N时， $l$ 层transformer模型的计算量为 $l\ast (24bNd^2+4bN^2d)$ ，d则代表词向量的维度或者隐藏层的维度(隐藏层维度通常等于词向量维度)

正因为现有的ChatGPT等大模型处

最低0.47元/天解锁文章

关注

34
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
2024的新宠儿——Mamba(1):SSM

如本文开头所说，mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上，通过此篇论文《Efficiently Modeling Long Sequences with Structured State Spaces》首次提出了结构化状态空间S4(这里有关于S4的更多论文)，但这篇论文的可读性比较差当然，作者在YouTube上有一个关于这篇S4论文的精彩解读，比S4论文的可读性提高很多，且本文中也应用了其中的部分PPT截图，但还可以更加通俗易懂。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。