【Mamba】详解(5) 【Mamba: 硬件感知算法】全网最简单版本

最新推荐文章于 2025-02-11 10:38:52 发布

这个男人是小帅

最新推荐文章于 2025-02-11 10:38:52 发布

阅读量1.4k

点赞数 27

分类专栏： Mamba 模型精讲文章标签：算法 pytorch 人工智能 python 深度学习分类 NLP

本文链接：https://blog.csdn.net/weixin_47332746/article/details/144236702

版权

Mamba 模型精讲专栏收录该内容

5 篇文章

订阅专栏

请添加图片描述

mamba详解

0. 引言
1. 硬件感知算法
- 1.1 SSM并行化问题
- 1.2 硬件加速问题
2. 更简单的SSM架构
3. 总结

0. 引言

距离第一章节的发布大概过了两周的时间，本章将重点介绍 Mamba 框架中的又一个创新组件：硬件感知设计，我相信有些朋友还是能从我的博文一步一步的跟着我学了下来，承蒙不弃十分感谢。那么，让我们不多做停留，直接开始今天的内容探索吧。

给自己打个广告，如果您对 Transformer 还不太了解，欢迎访问我的博客专栏，其中包含了丰富的 NLP 入门内容。即使您不是NLP领域的学者，这些内容对您深入理解深度学习和神经网络也大有裨益。点击这里学习更多。

此外，如果您对图神经网络的了解还不够深入，我建议您先阅读相关基础知识。点击此处，都是我的个人理解，简单易懂。话不多说，那咱们就开始今天的学习吧。

1. 硬件感知算法

实际上这个创新包含两部分，并行化就是选择性扫描算法和在对硬件操作的理解。

1.1 SSM并行化问题

首先聊并行化的问题：

我们在最初下了一个较强的定义就是SSM是和RNN一致的，并且其能实现并行化能力，这也是其最大的优势，至于这个能力是如何实现的呢？就是通过下下图的方式达成的：
在这里插入图片描述

从而完成了这样的并行化能力，当你引入了注意力机制后这个并行化的卷积行为就能用了：

请添加图片描述

我们提到的这个注意力机制，就是上一节的创新点选择性机制。这一个优势的引入给并行化带来了困难。说人话就是在引入选择性后输入的权重的计算就变的复杂起来。说人话举例子看下图：

请添加图片描述

可以看到每一个输入使用的B矩阵都是和自己相关的，最红隐状态的计算是由之前的记忆和输入影响的A矩阵得到的，换言之我们可以看到 $x_t$ 进行矩阵乘法的矩阵都是受到了 $x_t$ 影响得到的矩阵，再详细一点就是 $x_t$ 进行矩阵乘法的矩阵都是 $x_t$ 生成的。大家盯住上述公式的最后一行：

请添加图片描述

大家思考下我上面说的话，这就是以一个简单的依赖关系 $x_t$ 和自身生成的矩阵进行计算而已。

我们思考下并行化之所以可以并行实际上就是我们发现了预计算的规律，所以我们找到了计算方式。这就完成了这样的提前计算结果。即

发现了提前计算权重的规律

作者定义了一个这样的新的运算过程：

请添加图片描述

提出这样的运算方式满足结合率。其计算结果第二项作为结果。着虽然不是卷积但是也能满足并行。

我们试图再简化下这个计算就是：

$(a, b) * (c, d) = (a c, c b + d)$

结果取第二项：

$(a, b) * (c, d) = (c b + d)$

所以所以这里就是Mamba的第二个创新点，硬件感知算法。

具体是如何实现的呢？？我们根据这个上图举例子：

请添加图片描述

计算结果如下图：

在这里插入图片描述

第一步使用上述定义计算方式计算前两次输入的结果：

请添加图片描述

可以得到这样的结果：

请添加图片描述

我们再次重复这个计算方式：

在这里插入图片描述

我们仅仅去其结果的第二项作为计算结果，和C做乘积即可得到最终的结果：

请添加图片描述

我们再举个例子y3的计算方式，这里是有些不同的大家可以注意下，这里涉及到四个元素的计算，在并行运算的时候首先计算 $x_0$ 和 $x_1$ 然后再计算 $x_2$ 和 $x_3$ 。就是下图形式一致的情况。

在这里插入图片描述

然后将两部分的结果进行运算：

在这里插入图片描述

即可得到最终的结果：

请添加图片描述

总体的计算行为如上图所示，总体而言可以看到是具备这样的规律可循的，所以可以实现并行能能力。

1.2 硬件加速问题

SSM模型本身显存占用比较小，所以我们可以将模型和运算都放在SRAM上进行处理；这就和Transformer相比显然具备了很大的差距。Transformer由于注意力的问题，其现存占用太大了，无法完成这个事情。请添加图片描述
什么意思呢，由于Transformer需要进行大量的读取操作，这是由于其注意力矩阵带来的高内存需求，所以需要反复的进行着一复制计存取操作。因此这就导致其在性能上首先，不在同一设备上就会增加其沟通成本。