Mamba最新综述《A Survey of Mamba》-2024.8.5（下半篇）

最新推荐文章于 2025-02-14 20:54:11 发布

旺仔L

最新推荐文章于 2025-02-14 20:54:11 发布

阅读量4.2k

点赞数 49

分类专栏： mamba transformer mamba2 文章标签：深度学习计算机视觉 pytorch transformer

本文链接：https://blog.csdn.net/winner_liuhuan/article/details/141033837

版权

mamba 同时被 3 个专栏收录

6 篇文章

订阅专栏

transformer

4 篇文章

订阅专栏

mamba2

1 篇文章

订阅专栏

上半篇在Mamba最新综述《A Survey of Mamba》-2024.8.5（上半篇）

10.4、将新兴技术从Transformer应用到Mamba

10.4、将新兴技术从Transformer应用到Mamba

11、总结

7、Mamba模型的改进

状态空间模型和Mamba最近已经被探索，并成为一个有前途的替代品作为基础模型的骨干。虽然Mamba在自然语言处理方面表现出了熟练的能力，但它仍然面临着挑战，例如记忆丧失，对不同任务的泛化，以及将复杂模式捕获到基于Transformer的语言模型的能力较差。为了克服这些挑战，已经做出了大量努力来改进Mamba架构。现有的研究主要集中在修改块设计，扫描模式和内存管理方面。本节将从这三个方面介绍几种重要技术，相关研究总结见表1。

Mamba模块的设计和结构对Mamba模型的整体性能有着重大影响，使其成为新兴的研究热点。如图5所示，根据构建新的Mamba块的不同方法，现有的研究可以分为三类：a）集成方法旨在将Mamba块与其他已知模型集成，以在有效性和效率之间取得平衡; B）替代方法试图利用Mamba块作为高级模型框架中主要层的替代;以及c）修改方法集中于修改经典Mamba块内的组分。因此，我们将在下面的小节中详细介绍这些方法。

7.1、集成

一体化鉴于Mamba捕捉长期动态的非凡能力，它已与其他模型广泛集成，利用它们自身的优势提供针对特定场景定制的健壮框架。该集成特别包括高级模型，如Transformers, Convolutional Neural Networks (CNNs),Graph Neural Networks (GNNs), Recurrent Neural Networks (RNNs), and Spiking Neural Networks (SNNs)。具体的例子如下所述。

Transformer。 基于transformer的模型在许多任务中表现出了卓越的性能，但其二次计算复杂性仍然阻碍了它们在推理过程中[58]。为了追求高效的生成，一些研究人员提出将Mamba块与基于Transformer的模型相结合。例如，Jamba [111]结合了Transformer和Mamba层的块来处理长内容的自然语言处理任务，利用了两个模型家族的优势。与独立的Transformer和Mamba模型相比，Attention-Mamba混合模型表现出了上级性能，实现了比普通Transformer模型更好的吞吐量。Mambaformer [200]利用混合框架来预测多个时间序列，包括汇率，每小时的电力消耗和电力负荷，其内部结合了Mamba块和Transformer层，分别用于长期和短期依赖关系。由于Mamba和Transformer的集成，Mambaformer在长短范围时间序列预测中优于基于Transformer的预测器。

CNN。基于CNN的方法受到局部感受野的约束，导致捕获全局和远程语义的性能次优[55]。以状态空间模型学习远程模式的上级能力而闻名，一些研究[107，187，204]探索了利用Mamba块来增强基于CNN的模型的潜力，特别是在计算机视觉领域。例如，MedMamba [214]和nnMamba [53]展示了视觉Mamba块的集成如何提高CNN在图像分析任务中的性能。

GNN在通过消息传递机制捕获相邻关系方面表现出了很大的潜力，其中信息通过堆叠层在连接图上传播。但这些模型面临一个被称为过度平滑的显著限制[20]，特别是在试图捕获高阶相邻信号时。为了应对这样的挑战，Mamba被用于图表示学习[103，115，178，203]。例如，Graph Mamba [9]将图结构化数据重新表示为特定顺序的顺序令牌，并利用Mamba块中的选择性SSM层来构建新的Graph Mamba Network（GMN）架构，该架构实现了上级图表示学习能力，特别是在需要节点之间高阶依赖关系的数据集中。

RNN。基于RNN的模型在捕获时间动态方面取得了出色的结果。尽管如此，RNN仍然面临着重大挑战，包括耗时的循环训练和隐藏状态的记忆容量限制。受到最近基于Mamba的架构出现的启发，一些研究人员开发了Mamba块和RNN的融合。例如，VMRNN [170]在时空预测方面实现了最先进的性能，同时与基于递归和无递归的方法相比，最小化了浮点运算（FLOP）。它通过引入一个新的循环单元来实现这一点，该单元将Mamba块与长短期记忆（LSTM）相结合。

SNN最近被提出作为一种有前途的网络架构，其灵感来自于大脑中生物神经元的行为：通过离散尖峰在神经元之间传输知识。SNN的关键优势之一在于其低功耗实现的潜力，因为它们可以利用神经活动的稀疏和事件驱动的性质。受SNN的节能实现和SSM的上级远程学习能力的激励，开创性的研究已经深入研究了这两种方法的集成。例如，SpikeMba [106]将它们结合起来，以处理对突出对象的置信偏差，并捕获视频序列中的持久依赖性。通过广泛的评估，作者声称，整合这两个模型提高了时间视频接地任务的有效性，精确的时刻检索和亮点检测。

7.2、替代

· U-Net。一方面，已经做出了许多努力来将U-Net与Mamba在捕获复杂和广泛语义方面的能力进行协同，以便提高计算机视觉任务中的模型性能。例如，Mamba-UNet 专门利用Visual Mamba模块来构建类似于U-Net的模型（即，注入了跳过连接的编码器-解码器模型）。他们的评估表明，Mamba-UNet超越了几个U-Net变体，这可以归因于Mamba块在处理长范围补丁序列方面的功效和效率。

扩散模型。另一方面，已经进行了一些努力[47，49，136]以建立一种新型的扩散模型，扩散状态空间模型（DiS），该模型使用状态空间主干替代了典型的主干（例如，CNNs、Attention、U-Nets）。考虑到曼巴区块在适应长距离依赖性方面的显著效率和功效，DiS以使用扩散模型生成更长的序列取得优势[47]。例如，Oshima等人[136]提出了一种基于Mamba的扩散模型，该模型大大降低了长视频序列的存储器消耗，同时与基于变换器的扩散模型相比，仍然保持了有竞争力的性能度量。此外，MD-Dose [49]和P-Mamba [209]在扩散模型的后向过程中使用Mamba块来构造噪声预测器，最终生成用于医学图像处理的特定目标。

其他。除了U-Net和扩散模型之外，还有一些替代模型。例如，Res-VMamba [19]在残差学习框架中采用Visual Mamba块进行食物类别分类。此外，SPMamba [101]采用TF-GridNet [189]（一种最近开发的时频模型）作为其基础架构，随后采用双向Mamba块来继承Transformer组件。这种适应性使得模型能够有效地包含更大范围的上下文信息以用于语音分离任务。

7.3、修改

修改。除了直接使用Mamba块的集成和替换方法之外，还进行了一些其他的努力来修改Mamba块，以增强其在不同场景中的性能。例如，Jamba [111]借用了混合专家（MOE）[46，82]的概念，使其混合（Transformer-Mamba）解码器模型能够以少得多的计算进行预训练，并允许灵活的特定于目标的配置。值得注意的是，Jamba模型（56 B可用参数，12 B活动参数，4GB KV高速缓存）需要的KV高速缓存比典型的基于Transformer的语言模型LLaMA-2- 7 B（6.7B可用参数，12 B活动参数，128 GB KV高速缓存）小32倍，同时提供了更广泛的可用和活动参数。这使得Jamba能够在单个A100 GPU（80 GB）上吞下140 K的上下文长度，是LLaMA-2- 70 B支持的长度的7倍。除了MOE之外，一些研究建议将SSM层修改为K路结构，这涉及使用并行SSM单元处理模型输入，允许从多个角度捕获信息和知识。例如，Sigma [177]开发了一种新颖的基于Mamba的视觉编码器，其通过利用并行SSM层来处理多模态输入。UltraLight VM-UNet [193]提出了一种具有并行SSM单元的视觉Mamba层，可在不同通道中处理深层特征。概括地说，通过实现这样的修改（即，K-way，MOE），这些基于Mamba的模型获得了增强的学习能力，尤其是在处理多模态输入和快速适应多尺度任务方面。此外，一项开创性的研究Mamba引入了一种新方法，该方法建议在通过SSM层传递输入之前，将寄存器均匀地合并到视觉输入令牌中。该改进旨在增强图像块序列方向的表示，从而使曼巴块的单向推理范式适用于视觉任务。尽管取得了这些成功，但改造曼巴区块的勘探仍然是一个有希望但勘探不足的领域。

7.4、扫描机制

并行关联扫描操作是Mamba模型中的一个重要组成部分，其目的是解决由选择机制引起的计算问题，加速训练过程，并减少内存需求。它通过利用时变SSM的线性特性在硬件级别设计核融合和重新计算来实现这一点。然而，Mamba的单向序列建模范式阻碍了对各种数据（如图像和视频）的全面学习过程。为了缓解这个问题，一些研究都集中在设计有效的扫描方法，以提高模型的性能和促进曼巴模型的训练过程。如图6所示，专注于开发扫描模式技术的现有研究可分为两类：1）平面扫描方法从标记序列的平面角度处理模型输入; 2）立体扫描方法跨维度、通道或尺度扫描模型输入。

7.4.1、平面扫描。

平面扫描指的是将模型输入展平为令牌序列并相应地从不同方向扫描它们的过程。这种类型的扫描通常用于一维（例如，时间序列）和二维（例如，图像）数据。在本节中，我们进一步将其分为四类，即双向扫描，扫描，连续扫描和高效扫描。

（.最近在基于Mamba的模型中开发的扫描方法：扁平扫描（a-c）涉及将模型输入扁平化为令牌序列并相应地从不同方向扫描它们，立体扫描（d-e）从其他角度处理输入，与扁平扫描方法相比，捕获更广泛的知识。）

双向扫描。Visual Mamba [234]借用双向递归神经网络（Bi-RNN）[155]的概念，引入了一种用于视觉数据的扫描方法，称为双向扫描（Bi-Scan），其涉及使用同时的前向和后向SSM来处理输入令牌，从而增强了用于空间感知处理的模型容量。最近，许多研究已经利用双扫描方法来促进其基于曼巴的模型的学习能力[105]。例如，DPMamba [87]和SPMamba [101]都利用了一对双路径（前向和后向）选择性SSM来对语音信号的相关性建模，从而实现了用于语音分离的双向知识处理。这些显著的成功可以归因于Bi-Scan的有效性及其易于部署。

Sweeping Scan。如图6所示，扫掠扫描技术在特定方向上处理模型输入，类似于清洁工仔细地扫地[188，214]。例如，交叉扫描[121]需要将输入图像划分为小块，随后沿着四个不同的路径将其展平，这被认为是两个双向扫描的融合。通过采用这些互补的遍历路径，交叉扫描使得图像中的每个小块能够有效地整合来自其不同方向上的相邻小块的信息，从而促进信息性的感受野的建立。Omni-Scan [163，227]结合了对来自多个方向的图像信息流的建模，2（向前和向后）× 4（左-右、上-下、右上-左下、左上-右下）。这种策略增强了多个方向上的上下文信息的全局建模能力，使得能够提取全面的全局空间特征。

连续扫描。为确保输入序列的连续性，连续扫描技术扫描列或行之间的相邻令牌[66]，如图6所示。例如，为了更好地科普2D空间输入，PlainMamba [201]引入了一种连续扫描方法，称为连续扫描，其扫描列（或行）之间的相邻标记，而不是在交叉扫描中行进到相对的标记。此外，Hilbert扫描[66]基于希尔伯特矩阵沿弯曲路径行进。基于他们的评估结果，可以推断，增强输入标记的语义连续性导致基于Mamba的模型在各种视觉识别任务中的上级性能。

高效的扫描。与上述集中于实现更全面的输入建模的扫描方法相反，高效的扫描方法旨在加速训练和推理过程。通常，高效扫描将给定的输入分成若干部分，并并行处理它们，从而减少计算时间。例如，高效2D扫描[139]通过跳过补丁来处理图像，从而在保留全局特征图的同时将计算需求减少四倍。此外，Gao等人[51]在他们的Mamba框架内介绍了一种有效的双向子空间扫描方案。该方案能够有效地捕获长时间的空间-角度对应关系，用于4D光场超分辨任务。具体地说，它将块序列分解为两部分，并通过两种双向扫描方案对它们进行处理。通过这样做，扫描方法降低了输入长度并且解决了长期存储器问题，而不牺牲完整的4D全局信息。

7.4.2、立体扫描

立体声扫描。通过从其他角度对输入进行建模，立体扫描方法与平面扫描方法相比，在扫描过程中能够更好地捕获更广泛的知识。这种增强的功能允许更全面地理解模型输入。具体地说，这些方法可分为三个主要类别：分层扫描、时空扫描和混合扫描。分层扫描过程从不同层次的输入，而时空扫描考虑输入模式从时间和空间的角度。此外，混合扫描结合了多种扫描方法，以利用不同扫描技术的优势。

分层扫描方法涉及采用不同的扫描内核大小来捕获从全局到局部或从宏观到微观视角的语义知识[26，63，162，180]。例如，Mamba-in-Mamba分层编码器由[24]提出用于红外小目标检测，结合内部和外部选择性SSM块。内部的一个是专门为捕捉局部模式提取的视觉补丁之间的相互作用。相反，外部块被设计为表征视觉句子之间的关系，以捕获全局特征。HiSS [12]将输入序列划分为块，并对块特征进行分层建模，以进行连续顺序预测。块首先由低级SSM单元处理，并且处理后的特征由高级SSM块映射到输出序列。

时空扫描。在真实的世界中动态系统的流行的驱动下，对时空扫描方法的兴趣日益增长，以增强曼巴块的性能[205，207]。例如，VideoMamba [102]将图像的原始2D扫描扩展为两种3D扫描：空间优先扫描和时间优先扫描。结合这两种扫描方法，VideoMamba在处理长、高分辨率视频方面表现出了非凡的效率。此外，ChangeMamba [21]还集成了三种时空扫描机制（顺序建模、交叉建模和并行建模），以实现遥感变化检测的多时相特征之间的上下文信息交互。

混合式扫描。在追求综合特征建模的过程中，许多努力集中于组合不同扫描方法的优点[30，33，53，163，229]，即所谓的混合扫描。例如，Mambamixer [10]提出了扫描开关，其动态地采用一组图像扫描方法，即交叉扫描、之字形扫描和局部扫描，以遍历图像块。Mambamixer还引入了双重选择机制，以跨令牌和通道混合信息。通过这种方式，它们表现出了与其他视觉模型相比具有竞争力的性能。Pan-Mamba [68]介绍了两种基于Mamba架构的扫描方法：通道交换扫描和交叉模态扫描。通过结合这两种扫描方法，Pan-Mamba增强了其在高效的跨模态信息交换和融合中的能力，以实现图像全色锐化。

7.5、内存管理

与RNN一样，状态空间模型中隐藏状态的记忆有效地存储了先前步骤的信息，从而在SSM的整体功能中发挥了至关重要的作用。虽然Mamba已经引入了基于HiPPO的内存初始化方法[55]，但SSM单元的内存管理仍然存在挑战，包括在层之间传输隐藏信息和实现无损内存压缩。为此，一些开创性的研究提出了不同的解决方案，包括内存初始化，压缩和连接。例如，Ezoe和Sato [36]试图通过在模型再训练期间使用平衡截断方法来细化选择性SSM的初始化过程。此外，DGMamba [123]引入了一种隐藏状态抑制方法来支持状态空间模型中隐藏状态的域泛化能力。该方法用于减轻源自这些隐藏状态的负面影响，从而缩小跨不同域的隐藏状态之间的差距。类似地，DenseMamba [67]提出了一种密集连接方法来增强SSM中层之间隐藏信息的传播。该策略旨在通过选择性地将隐藏状态从较浅层集成到较深层来减轻内存退化并保留用于输出生成的详细信息。

8、使Mamba适应各种数据

Mamba架构代表了选择性状态空间模型的扩展，它具有递归模型的基本属性，使其非常适合作为对文本，时间序列，语音等序列进行操作的通用基础模型。与此同时，最近的开创性研究已经将Mamba架构的使用扩展到了序列数据之外，包括图像和图形等领域，如图7所示。这些研究旨在利用Mamba在捕获远程依赖关系方面的卓越能力，同时利用其在学习和推理过程中的效率。因此，在本节中，我们的目标是研究使Mamba适应各种类型数据的新兴技术。

（存在使Mamba适应不同类型数据的代表性策略。(a-e)曼巴架构充满了递归模型的基本特征，是处理语言、时间序列和语音等序列的理想基础模型。(f-h)为了处理非顺序数据，一种常见的方法涉及将数据分割或采样成离散的记号，并按照定义的规则将它们组织成序列。此外，Mamba展示了通过连接它们各自的序列或投影来处理多模态数据的能力）

8.1、序列数据

自然语言。作为最具代表性的体系结构之一，Mamba在保证效率的同时执行基于内容的推理，被认为是大型语言模型的主干的一个有前途的替代方案，以解决Transformers在长序列上计算效率低的问题。基于这一认识，许多研究探索了曼巴在自然语言处理（NLP）中各种下游任务的潜力[10，12，67，134]。例如，MambaByte [181]建议在字节序列上使用Mamba，旨在利用Mamba在捕获无标记语言模型的长范围依赖性方面的优势。他们的评估表明，MambaByte避免了子词标记化的归纳偏差，并且在长期语言建模任务中优于最先进的子词变形金刚。此外，Jamba [111]和BlackMamba [5]结合了专家混合（莫伊）的概念，通过将SSM的线性复杂度生成与莫伊提供的快速经济的推理能力相结合，增强了Mamba在语言处理方面的性能。

视频。视频理解和生成的核心目标在于学习时空表示，这固有地提出了两个艰巨的挑战：短视频剪辑内的大时空冗余和长上下文之间的复杂时空依赖性[6，122]。为了同时应对这两个挑战，曼巴凭借其区分短期行为和解读长视频的能力脱颖而出[106，136，205，235]。例如，VideoMamba [102]首先通过3D卷积将输入视频投影到一组不重叠的时空块中，然后利用堆叠的双向Mamba块将这些块编码为矢量化表示，用于下游任务，如视频理解和生成。

时间序列。时间序列。作为典型的序列数据，时间序列数据在我们生活的各个方面无处不在，包括股票市场分析、交通建模和天气预报[147，230]。受曼巴在模拟长距离序列方面的最新进展的推动，人们已经做出了许多努力来研究其在时间序列数据方面的潜力[3，4，108，200]。例如，TimeMachine [3]利用Mamba来捕获多元时间序列数据中的持久模式，从而确保线性复杂度计算和最小的内存占用，以简化时间序列处理。此外，Mambaformer [200]结合了选择性SSM和注意层，用于天气、交通流量等的长期和短期预测。

语音。言语特指人类交流的发声形式，包括使用特定语音、单词、语法和语调模式的发声表达[1]。最近，在与语音相关的任务领域，研究人员[27]在开发基于曼巴的模型以应对现有模型架构（如RNN和Transformers）所遇到的新挑战方面取得了重大进展。例如，SPMamba [101]和DPMamba [87]利用双向Mamba模块来捕获用于语音分离的更大范围的上下文信息，当处理语音分离任务时，与基于变换器的基线相比，证明了模型性能的13%的实质性改进和计算复杂性的566%的降低。

8.2、非序列数据

非顺序数据与顺序数据的不同之处在于不遵循特定的顺序。它的数据点可以按任何顺序组织或访问，而不会显著影响数据的含义或解释[80]。这种固有顺序的缺乏给诸如RNN和SSM之类的递归模型带来了困难，这些模型专门设计用于捕获数据中的时间依赖性。令人惊讶的是，在最近的开发中，代表SSM的Mamba在高效处理非顺序数据方面表现出了杰出的成功。在本节中，我们将回顾有关Mamba如何有效处理非序列数据（包括图像、图形和点云）的相关研究。

图像。图像作为最流行的模态之一，图像数据形成了各种计算机视觉应用的基础，人脸识别、医学视觉[214]和遥感[21，23]。从曼巴在序列建模方面的成功中汲取灵感，存在着一个有趣的机会，可以将这一成就从文本处理转移到图像分析。它涉及到将一幅图像视为一系列补丁，这可能为计算机视觉领域内的新探索铺平道路。因此，最近已经开发了大量基于曼巴的视觉模型，以减轻繁重的计算资源和存储器压力，同时展现出有竞争力的建模能力[114，152，179，179]。例如，Vision Mamba [234]结合了双向SSM以便于全局视觉语义建模，并且结合了位置嵌入以用于位置感知的视觉理解。Vision Mamba不需要注意力机制，可与Vision Transformers的建模能力相匹配，同时将计算时间大幅降低至次二次级，并保持线性内存复杂性。具体而言，它在速度方面优于最先进的基线DeiT [173]，快2.8倍，并且在高分辨率图像（1248×1248）的特征提取的批处理推理过程中，GPU内存使用量显著减少了86.8%。此外，VMamba [121]引入了2D选择性扫描（SS2D），其作为1D阵列扫描和2D平面遍历之间的桥梁，使得Mamba能够有效地处理视觉数据。

图形结构化数据。图建模在管理复杂结构和关系方面具有广泛的实用性，包括在社交网络[41]和分子相互作用[77]等领域的应用。受ChatGPT等语言基础模型显著出现的启发，许多研究人员冒险构建了一个图基础模型，该模型可以为下游预测任务提供节点和边嵌入[28]。由于Mamba在远程建模和高效率方面的强大能力，一些开拓性研究已经采用了非序列图数据的选择性状态空间模型（SSM）[115]。这些研究利用状态空间模型通过循环扫描期间的隐藏状态来编码上下文，从而允许输入流控制，这类似于图上的注意力稀疏化，在图建模上下文中呈现数据依赖的节点选择过程[208]。此外，Mamba预计将在大型图训练任务中提高模型效率。

点云。点云是计算机视觉中的一种重要形式，在机器人、自动驾驶和增强现实等领域具有众多实际应用[62]。与图像处理和图学习不同，点云分析面临着独特的挑战，这源于点云固有的不规则性和稀疏性，这是一种3D非结构化数据。为了应对这些挑战，基于深度学习的方法取得了显着的进步，特别强调基于transformer的模型[211]。然而，注意力机制的复杂度是二次的，这带来了巨大的计算开销，对低资源设备不友好。注意到状态空间模型（SSM）在处理1D序列（例如，语言和语音）和2D数据（例如，图像和图形），一直在努力将Mamba的应用扩展到3D点云[210]。一般来说，这些基于Mamba的点云分析方法采用两步过程[63，232]。首先，使用特定的扫描方法将点云数据标记为离散标记。然后，利用Mamba捕获这些令牌中的底层模式。例如，PointMamba [109]提出了一种分层扫描策略来编码3D点云的局部和全局信息，然后利用普通Mamba作为主干从序列化的点令牌中提取特征，而无需引入额外的复杂技术。点云Mamba [220]将Mamba作为基础模型主干，以显着减少内存使用，与基于Transformer的同行相比，表现出相当（或上级）的性能。

9、应用

9.1、自然语言处理

在自然语言处理领域，最近出现了一些基于Mamba的模型作为基于Transformer的语言建模模型的替代品[5，14，67，111，176，226]，特别是在涉及广泛上下文的应用中，如问题分类系统和文本摘要。

问答系统。问答（QA）涉及人工智能模型使用广泛的知识库进行理解、推理和响应，从而实现连贯和上下文丰富的对话，广泛应用于聊天机器人和虚拟助手。从先前的互动中提取上下文对于准确解决多轮对话中的后续问题至关重要。然而，现有的模型面临着推理速度和计算效率的挑战，特别是在复杂的推理任务。这会导致大量的内存使用和计算开销，从而限制了可伸缩性和实时应用程序的效率。为了解决这些局限性，最近的研究探索了基于Mamba的模型，以改善QA系统中的长期对话管理[111，111，132]。例如，Mamba-Chat [132]是第一个使用状态空间框架的聊天语言模型。该模型通过采用状态空间表示来保持和更新其对对话的理解，从而确保上下文感知。Jamba [111]策略性地在Transformer和Mamba层之间交替，结合莫伊以增强模型容量，同时优化参数利用率。在常识推理和阅读理解任务中，Jamba的性能与较大的Llama-2模型相当，但参数较少，证明了效率和有效性。类似地，DenseMamba [67]引入了一种新方法，通过选择性地将隐藏状态从浅层合并到更深层，来丰富SSM中隐藏信息的跨层传播。与传统的基于transformer的模型相比，这保留了关键的细粒度信息，在问答任务中具有上级性能。总体而言，集成基于Mamba的模型显示出通过改善对话管理和增强复杂推理任务的性能来推进QA系统的潜力。

文本摘要。文本摘要旨在通过保留必要信息来压缩长文本。在这项任务中，保持一致性和相关性至关重要。基于转换器的模型经常与长序列依赖性作斗争，这可能会损害一致性和相关性。相比之下，基于Mamba的模型利用了强大的长序列处理功能，使它们非常适合处理连贯和上下文丰富的文本。他们强大的体系结构使他们能够通过准确地捕捉和浓缩大量文档的精华，在摘要任务中表现出色。例如，基于状态空间模型的LOCOST [14]处理的序列比稀疏注意力模型要长得多。在长文档抽象摘要中，LOCOST实现了与同等维度的最高性能稀疏变换器相当的性能，同时减少了高达50%的内存使用在训练和推理过程中，87%。此外，桑巴舞[149]将Mamba与滑动窗口注意力集成在一起，使选择性序列压缩到经常性的隐藏状态中，同时通过注意力机制保持精确的记忆回忆。当处理128K的输入长度时，桑巴舞的吞吐量是Transformers的3.73倍，在需要长上下文摘要的任务中表现出上级性能。

9.2、计算机视觉

除了NLP应用之外，基于Mamba的模型在计算机视觉领域也显示出了潜力，代表性的应用包括疾病诊断和运动识别与生成。

疾病诊断。在临床实践中，医学图像和视频提供了对器官或组织形态的关键见解。对生物医学对象（例如大规模2D/3D图像或视频中的病变）的有效分析显著增强了疾病诊断和临床治疗。然而，像UNet这样的基于CNN的模型由于其有限的感受域而在处理长范围依赖性方面面临挑战。与自然图像相比，医学图像通常具有更大的尺寸和更高的分辨率，这加剧了这一挑战。同时，基于变换器的算法是计算密集型的，限制了它们在资源受限的临床环境中的实用性。为了克服这些局限性，大量研究在真实的医疗环境中采用了基于Mamba的模型[110，127，152，187]。例如，U-Mamba [127]和SegMamba [198]都集成了一个混合CNN-SSM模块，将卷积层的局部特征提取能力与SSM提供的长距离相关性建模相结合。在CT和MR图像中腹部器官的3D分割、内窥镜图像中器械的分割以及显微镜图像中细胞的分割等任务中，该混合方法优于现有模型。类似地，CMViM [202]通过利用掩蔽的Vim自动编码器和跨模态的对比学习，解决了阿尔茨海默病（AD）诊断成像中的挑战，实现了AD诊断成像分类中的最佳性能。此外，ProMamba [196]专门用于息肉分割。该模型结合VisionMamba的体系结构和提示技术，比以往的方法具有更高的准确率和更好的泛化能力。对于视频中的动态医学对象分割，Vivim [205]使用Temporal Mamba Block有效地将不同尺度上的长期时空表示压缩为序列。该方法在疾病诊断（如超声乳腺病变分割和结肠镜检查视频中的息肉分割）中表现出增强的性能和计算效率。

运动识别和生成。运动识别和生成在运动监控[52]、计算机动画[165]、游戏开发[133]和电影制作[184]中至关重要。然而，基于transformer的模型遇到了与计算和内存需求相关的挑战，限制了它们在资源受限环境中的适用性。此外，基于变形金刚和GCN的模型难以有效地捕获视频和4D点云中的长运动序列和复杂的时空模式。最近的研究探索了使用Mamba来解决这些挑战，利用其强大的性能和较低的计算需求[18，105，224，225]。例如，HARMamba [105]利用双向SSM架构来处理来自可穿戴传感器的数据，显着减少计算负载和内存使用，同时保持实时人体运动识别的高精度。类似地，Simba [18]将Mamba集成到U-ShiftGCN框架中，有效地处理较长的序列和复杂的时空交互，从而在视频中实现骨骼动作识别的最佳结果。此外，Motion Mamba [225]和InfiniMotion [224]都用于运动生成。具体而言，Motion Mamba [225]利用分层时间Mamba块来处理时间数据，并利用双向空间Mamba块来处理潜在姿势，确保跨帧的运动一致性并增强时间帧内的运动生成精度。InfiniMotion [224]引入了具有双向Mamba内存的运动内存Transformer，提高了Transformer的内存能力，以有效地生成连续、长时间的人体运动（长达1小时和80，000帧），而无需压倒性的计算资源。

9.3、药物设计

蛋白质设计、分子设计和基因组分析是推进药物发现和生物技术的关键[100，156]。利用基于MAMBA的模型显著降低了在这些域中建模长序列的复杂性[61，140，140，154，154]。具体来说，PTM-Mamba [140]和ProtMamba [158]是基于Mamba架构的蛋白质语言模型。PTM-Mamba利用双向门控Mamba块和结构化状态空间模型，有效地处理长序列，同时减少计算需求。ProtMamba被设计为具有同源性意识但无干扰，擅长处理数百个蛋白质序列的广泛背景。这两种模型即使在大数据集下也能保持高效率和准确性，为蛋白质设计提供了关键工具。同时，生成式分子设计旨在模拟具有特定分布的定制性质的分子。然而，目前的模型缺乏优化高保真预言机所需的效率，直接导致成功率低。Saturn [61]应用Mamba架构，利用其线性复杂性和计算效率，在药物发现中超过了22个竞争模型。此外，了解基因组对于深入了解细胞生物学至关重要。基因组建模中的挑战包括捕获远距离标记之间的相互作用，考虑上游和下游区域的影响，以及确保DNA序列的互补性。Caduceus [154]和MSAMamba [172]都利用了Mamba模型，在应对这些挑战方面表现出色。Caduceus是一种DNA基础模型，它通过BiMamba和MambaDNA组件增强了Mamba架构，用于双向建模并确保反向互补等方差，在长距离基因组任务中显著优于现有模型。类似地，MSAMamba [172]通过沿着序列维度实施选择性扫描操作来解决DNA多序列比对的基于变换器的模型的局限性。这种设计将以前方法的训练上下文长度扩展了八倍，允许对广泛的DNA序列进行更全面的分析。

9.4、推荐系统

推荐系统广泛用于电子商务[25，219，231]和社交网络[38，39，43]，旨在捕获用户不断变化的偏好以及他们过去行为之间的相互依赖性[40，228]。虽然transformer-based模型已被证明在推荐系统的有效性，他们面临着计算效率的挑战，因为注意力机制的二次复杂性，特别是当处理较长的行为序列。最近，几个基于Mamba的模型已被应用于分析个性化推荐的长期用户行为[16，115，166，185，203]。例如，Mamba 4 Rec [115]率先使用选择性状态空间模型进行有效的顺序推荐，在保持推理效率的同时增强模型性能。类似地，RecMamba [203]探索了Mamba在终身顺序推荐场景中的有效性（即，序列长度≥ 2k），实现了与基准模型相当的性能，同时将训练时间缩短了70%，并将内存成本降低了80%。此外，EchoMamba 4 Rec [185]将双向Mamba模块与频域滤波集成在一起，以准确捕获用户交互数据中的复杂模式和相互依赖性。它展示了优于现有模型的上级性能，提供更精确和个性化的建议。此外，Mamba 4KT [16]是专为智能教育中的知识追踪而设计的，利用Mamba模型来捕捉练习和学生知识水平之间的持久相关性。随着教育数据集的扩展，该方法为提高知识追踪研究中的预测精度、模型效率和资源利用率提供了一条有前途的途径。

9.5、机器人和自主系统

机器人和自主系统的主要目标是开发能够理解视觉环境和执行复杂动作的模型。目前用于机器人的多模态大型语言模型（MLLM）在两个主要方面面临着重大挑战：1）处理需要高级推理的复杂任务的能力有限，以及2）微调和推理任务的大量计算费用。由于它们在推理速度、内存利用率和整体效率方面的优势，基于Mamba的模型正在成为一个有前途的基础，自治和智能系统[15，85，117]，有望上级性能和巨大的可扩展性潜力。例如，RoboMamba [117]将视觉编码器与Mamba集成，以创建端到端机器人MLLM。该方法通过共同训练将视觉数据与语言嵌入对齐，用视觉常识和机器人特定的推理增强模型，同时确保有效的微调和推理能力。类似地，Jia等人[85]介绍了MaIL，一种使用Mamba作为主干的模仿学习（IL）策略架构。在处理观测序列时，MaIL弥补了效率和性能之间的差距。真实的机器人实验的广泛评估表明，MaIL提供了一个有竞争力的替代传统的，大型的，复杂的基于变压器的IL政策。

10、挑战和机遇

10.2、基于Mamba的基础模型

通过在大规模混合源语料库中将模型大小扩展到十亿级，基础模型（FM）表现出令人印象深刻的零射击学习能力，这使得FM能够在广泛的一般任务中表现出色[13]。作为一个代表性的例子，近年来，基于Transformer的大型语言模型，特别是ChatGPT，取得了蓬勃发展的成功，激发了人们对各个领域基础模型的探索热情。尽管Transformers是成功的主要驱动力，但它们面临着紧迫的计算和内存效率问题[171]，这伴随着与基于注意力的模型大小成正比的指数增长的训练内存以及推理过程中费力的自回归解码。针对这些问题，提出了一种有前途的替代主干，即，曼巴[29，55]，为基础模型最近出现。Mamba提供了Transformers的内容感知学习功能，同时随着输入长度线性扩展计算，使其能够有效地捕获远程依赖关系，并提高训练和推理的效率。鉴于这些优势，为特定领域开发基于Mamba的基础模型具有很大的潜力，这为解决基于Transformer的模型所面临的问题提供了机会。

10.2、硬件感知计算

基础模型的特点是尺寸大，矩阵乘法和卷积等密集的矩阵运算，需要GPU和TPU等尖端硬件来进行高吞吐量训练和推理。这些先进的硬件使研究人员能够处理更大的数据集，并在各个领域实现最先进的性能。尽管如此，现有的基础模型仍然无法充分利用硬件的计算能力，导致模型效率有限[171]。作为提高计算效率的一种有前途的替代方案，Mamba-1 [55]和Mamba-2 [29]提出了硬件感知的计算算法，即并行关联扫描和块分解矩阵乘法。这些算法考虑了GPU和TPU的固有特性，包括设备之间的消息传输等因素，为解决计算效率问题提供了新的视角。受此启发，探索新的硬件高效算法，如FlashButterfly [48]，以优化硬件利用率，为节省资源和加速计算提供了一条有前途的途径，不仅有利于SSM，也有利于其他架构，如变压器和RNN。

10.3、值得信赖的Mamba

SSM的发展预计将为电子商务、医疗保健和教育等各个行业带来重大利益。与此同时，作为一个依赖数据的模型，像许多现有的架构一样，Mamba模型可能会对用户和社会构成严重威胁。这些威胁来自几个因素，如不稳定的决策，隐私问题等。因此，确保Mamba模型的可信度在四个关键维度上至关重要[116]：安全性和鲁棒性，公平性，可解释性和隐私性。安全性和鲁棒性。大型基础模型已被证明非常容易受到对抗性扰动的影响，这可能会危及这些模型在安全关键应用中部署时的安全性和鲁棒性[45，135，190]。与此同时，基于Mamba的模型也不能免除这些漏洞[128]。在追求成为Transformer的可靠替代品的过程中，研究和增强基于Mamba的模型的安全性和鲁棒性至关重要。具体来说，模型输出应该对输入中的小扰动具有鲁棒性。一个潜在的解决方案可能涉及在将提示输入到基于Mamba的模型之前自动预处理提示。此外，作为一种代表性技术，对抗性机器训练[78]可以用于增强Mamba模型的安全性和鲁棒性。

可解释性。深度学习模型经常因其“黑箱”性质而受到批评，深度学习模型的可解释性已成为研究界的热门话题，它表明理解和解释模型生成的决策或预测的能力[35]。通过解释模型预测，用户可以根据模型的输出做出更明智的决策。为此，已经提出了几种技术来为基于注意机制的神经结构提供合理的内在解释[74]。此外，研究人员还研究了基于转换器的语言模型生成自然语言描述以解释其答案的能力[212]。尽管越来越多的研究试图充分利用曼巴蛇的优势，但对曼巴蛇模型功能的理解仍处于早期阶段，还需要进一步的研究。

隐私。对隐私的保护建立了用户和基于Mamba的模型之间的信任。当用户确信自己的隐私受到尊重时，他们更有可能使用人工智能系统，分享相关信息，并寻求帮助，而不必担心滥用他们的数据。因此，这种信任对于曼巴模型的广泛采用和接受至关重要。一个有效的降低隐私风险的策略是交叉验证曼巴模型的输出和筛选敏感内容[93]。此外，联邦学习在曼巴模型的训练过程中还能加强隐私保护，其中，模型是在大量分散的边缘设备或服务器上进行训练的，这些设备或服务器存放着本地数据样本，而无需进行数据交换。这种方法有助于保护数据的本地化和隐私。此外，在训练过程中集成隐私意识正则化技术，如差分隐私约束，显示了防止敏感数据过度拟合的前景。

10.4、将新兴技术从Transformer应用到Mamba

Transformer作为主要的骨干，已经带领AI社区开发了许多独特的工具，旨在增强基于注意力的模型的性能。幸运的是，通过连接SSM和注意力，Mamba-2引入的SSD框架允许我们为Transformer和Mamba开发共享的词汇表和技术库。在这种情况下，出现了一个重要的未来方向，即，探索为基于transformer的模型设计的新兴技术如何有效地应用于基于mamba的模型。

参数高效的微调。大型基础模型的参数可按比例放大到十亿级，在多个领域取得了突破性的进展。然而，当为特定的下游任务定制它们时，它们的大规模和计算要求提出了重大挑战。为此，已经提出了几种参数高效微调（PEFT）技术，包括LoRA [72]和适配器系列[50，91]，其涉及在微调期间最小化参数调整或对大量计算资源的需要。从最近在使用Transformer层构建的大型语言模型中使用PEFT的成就中汲取灵感，将PEFT用于Mamba模型已经成为一个有趣的话题，其目标是拓宽它们在下游任务中的应用范围。例如，LoRA（低秩自适应）的部署预计将促进SSD模型的快速微调，从而使Mamba在各个领域的广泛应用成为可能。然而，在基于曼巴的模型中实现这些PEFT技术的细节还有待确定，需要进一步研究。

灾难性的遗忘缓解。灾难性遗忘，也称为灾难性干扰，是指在机器学习模型中观察到的现象，当对新任务进行训练时，它们在之前学习的任务上的性能会出现显着损失[92]。这个问题对基础模型提出了挑战，因为它们需要保留来自预训练任务的知识，并在不同的下游领域展示一致的性能。作为基础模型的一个有前途的架构，Mamba需要进行彻底的调查，以解决灾难性的遗忘问题。最近的研究建议通过奖励最大化和分配匹配策略来封装特定于任务的需求来解决这一挑战。

检索增强生成（RAG）。作为人工智能中最复杂的技术之一，RAG可以提供可靠和当前的外部知识，为多种任务提供重要的实用性[31，99]。大型语言模型最近展示了突破性的语言理解和生成能力，尽管遇到了固有的限制，如幻觉和过时的内部知识。鉴于RAG提供当前和有价值的补充信息的强大能力，检索增强的LLM已经出现，它利用无关知识数据库来提高LLM的生成质量[22]。同样，RAG可以与Mamba语言模型相结合，以帮助它们产生高质量的输出，这是一个很有前途的未来研究方向。

11、总结

Mamba是一种新兴的深度学习架构，由于其强大的建模能力和计算效率，它在语言生成、图像分类、推荐和药物发现等不同领域取得了显著的成功。最近，已经做出了越来越多的努力来开发具有更强大的表示学习能力和更低的计算复杂度的基于曼巴的深层学习模型。鉴于曼巴的迅速发展，迫切需要有一个系统的概述。为了弥合这一差距，在本文中，我们提供了一个全面的审查Mamba，重点是其架构的进步，数据的适应性和应用领域，提供研究人员既深入了解和Mamba的最新发展的概述。此外，鉴于曼巴研究仍处于起步阶段，我们还讨论了目前的局限性，并提出了未来调查的有希望的方向。