【论文阅读】VMamba:视觉状态空间模型

VMamba:视觉状态空间模型

摘要

受最近提出的状态空间模型启发,我们提出了视觉状态空间模型,在不牺牲感受野的情况下实现线性复杂度。为了解决遇到的方向感知问题,我们提出了交叉扫描模块(CSM)以遍历空间域并将任何非因果视觉图像转换为有序补丁序列。广泛实验结果说明VMamba不仅在多种视觉感知任务上取得优秀的成果,在不断提升图像分辨率训练表现上也展现了明显提升。

VMamba在有效降低注意复杂度的关键概念来自选择性扫描状态空间模型(S6),原本被提出用来解决NLP问题。和传统注意力计算方法不同,S6使1-D矩阵内的每个元素来和先前扫描的样本交互,通过一个压缩的隐状态,有效将平方复杂度降低到线性。

然而,由于视觉信息是非因果的,直接在一个切分为patch并展平的图像上应用这样的策略会导致受限的感受野,因为和没被扫描到的patch间的关系难以被评估。我们称这个问题为“方向感知”问题并且提出通过新提出的交叉扫描模块来解决这一问题。不同于翻转特征图的空域以无方向模式(行方向或列方向),CSM采用一种四路扫描策略即从整个特征图的四个角到相反的位置。

总结我们的贡献如下:

  • 我们提出了VMamba,有全局感受野的视觉状态空间模型
  • 提出CSM弥补1-D和2-D平面之间的差距
  • 没有花里胡哨的,我们展示VMamba在诸如图片分类,目标检测和语义分割任务上取得了很大的成功。

在这里插入图片描述

相关工作

状态空间模型

这些模型主要关注于状态空间模型如何应用在长程和因果数据像语言语音,语言理解,文本推理,像素级1-D图像分类上。S4ND是第一个将状态空间机制应用在视觉任务上的工作,但是不能以依赖于输入的方式有效地捕获图像信息。

方法

准备

状态空间模型

【论文翻译】Mamba 中的状态空间模型背景-CSDN博客

离散化

【论文翻译】MODELING SEQUENCES WITH STRUCTURED STATE SPACES 附录A.1-CSDN博客

VMamba在这里使用ZOH零阶保持离散化,但是 B ‾ \overline{B} B使用一阶泰勒近似为
B ‾ = ( e Δ A − I ) A − 1 B ≈ ( Δ A ) ( Δ A ) − 1 Δ B \overline{B} = (e^{\Delta A}-I)A^{-1}B\approx(\Delta A)(\Delta A)^{-1}\Delta B B=(eΔAI)A1B(ΔA)(ΔA)1ΔB

选择扫描机制

在S6,参数 B ,   C ,   Δ B,\ C,\ \Delta B, C, Δ是数据依赖的,确保了权重的动态性。

2D 选择扫描

S6因果的处理输入数据,因此只能捕捉到已经扫描到的部分的信息。天然适应NLP任务包括时许信息,但对于非因果的数据例如图片,图,集等等设置了挑战。一个直接的解决这个问题的办法是从两个方向扫描数据,即前向和后向,允许它们在不增加计算复杂度的情况下互相补充感受野。

除了有非因果的天然性质,图像和文本间的差别还包括图像包含2D的空间信息(例如局部信息和全局信息)。为了处理这个问题,S4ND提出用卷积和直接扩展核从1-D到2-D通过外积来重新公式化SSM。然而,这样的调整使得权重不能变成动态的(即输入依赖的)导致基于内容的数据建模的能力损失。因此,我们选择保留动态权重通过坚持选择性扫描方法,不幸的是这阻碍我们遵循卷积操作。

为了让解决这个问题,我们提出了图二所示的交叉扫描魔魁啊。我们选择展开图像块沿着行和列到需略(扫描扩展),然后从四个不同方向处理扫描:上-左到下-右,下-右到上-左,上-右到下-左,下-左到上-右。以这种方式,任何像素如图二的中心像素,整合了来自不同方向的其他像素。我们之后将每个序列reshape称单张图片,然后所有的序列被拼接成一个新的如图三所描述。(扫描拼接)

在这里插入图片描述

和CSM结合的S6,被称作S6块,是视觉状态空间(VSS)块的核心元素,构成了VMamba的基础块(在下一孝介进一步介绍)。我们强调在保持全局感受野情况下S6继承了选择扫描机制的线性复杂度。

VMamba 模型

整体结构

如图4(a)所示,是VMamba-Tiny的概览。VMamba首先使用一个stem模块把输入图像分割为块,和ViTs相似不需要进一步展平patch到1-D序列。这个调整保持了图片的2D结构,使特征图有 H 4 × W 4 × C 1 \frac{H}{4}\times\frac{W}{4}\times C_{1} 4H×4W×C1

VMamba之后在特征图上堆叠一些VSS块,保持相同的维度,构成阶段1。VMamba中的层次表示是通过pach合并操作对“阶段1”中的特征图进行下采样来构建的。其后,更多的VSS块包含进来构成阶段2,输出分辨率为 H 8 × W 8 \frac{H}{8}\times\frac{W}{8} 8H×8W.这个过程重复来构成阶段3和阶段4,分辨率分别为 H 16 × W 16 \frac{H}{16}\times\frac{W}{16} 16H×16W H 32 × W 32 \frac{H}{32}\times\frac{W}{32} 32H×32W。所有这些阶段共同构成类似于流行CNN和一些ViT的层次表示。

我们在三个不同规模下实现了VMamba,VMamba-Tiny, VMamba-Small, and VMamba-Base。所有模型的FLOPs通过使用 224 × 224 224\times 224 224×224​输入评估。

在这里插入图片描述

VSS块

图四b展示了VSS块的结构,输入经过一个初始线性嵌入层,其输出分为两股信息流。一个经过一个 3 × 3 3\times3 3×3的深度卷积层,在进入核心SS2D模块前经过一个Silu激活函数。SS2D的输出经过一个层归一化,之后把输出加到另一个信息流中。这组成了VSS块的最终输出。

不同于vision transformers我们避免在VMamba使用位置嵌入偏置由于其因果性。我们的设计偏离了典型的视觉transformer结构,其在块中应用了下面的操作顺序:归一化->注意力->归一化->MLP。我们抛弃掉MLP操作。因此,VSS块比ViT块浅一点,这允许我们在同样模型深度情况下堆叠更多的块。

实验

在这个部分,我们完成了一系列实验评估和比较VMmaba和流行模型,包括CNN和视觉transformers。我们的评估基于多种任务,包括ImageNet-1K图片分类,COCO目标检测和ADE20K语义分割。随后,我们深入分析实验,以深入了解VMamba的架构。

在这里插入图片描述

分析实验

有效感受野

为了评估不同模型的有效感受野,我们在图5展示了一个比较分析。ERT测量了模型输入对模型输出的影响。在输入尺寸1024X1024条件下可视化中心像素ERF。我们将其与四个主流的视觉基础模型作比较:从图五,我们得出关键结论1)只有DeiT和VMamba有全局ERF 2)不同于DeiT平等均匀地激活所有像素,VMamba激活所有像素但是显著强调了交叉型的激活。交叉扫描模块扫描机制使得中心像素受交叉方向像素影响最大,对于每个像素,其长程内容优先于局部信息。3)有趣的是,VMamba在训练前初始化仅仅一个局部ERF而在训练后变为全局,注意到模型全局能力的自适应过程。我们认为这个自适应过程增强了模型对图片的感知。和DeiT在训练前后都保持几乎一致地ERF不同。

输入尺度

在这里插入图片描述

我们继续进行输入尺度变化实验,如图6所示,VMamba实现了跨输入图片尺寸地最稳定表现,值得注意的是,在从224x224到384x384,只有VMamba表现出一个上升趋势,展示了其对输入尺寸变化地鲁棒性,VMamba实现了比肩CNN地线性复杂度增长,而同样有全局感受野地DeiT表现出了平方复杂度增长。

总结

为了解决方向感知问题,我们提出里交叉扫描模块来空间翻转,将非因果的视觉图像转换为顺序patch序列。大量的实验表明,VMamba在多种视觉任务上取得可观表现,当图片分辨率上升时,有显著的优势。

  • 29
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《大模型技术进化论:多模态大模型综述》是一篇系统阐述多模态大模型技术进化的综述性论文。多模态大模型是指通过整合多种不同的数据形式和类型,构建出更复杂、更完整的模型,以提高模型的表现和性能。 该论文首先介绍了大模型技术的背景和发展动力。随着数据规模的快速增长和多源数据的丰富性,传统的单一模态模型已经面临着一系列的挑战,无法完全适应现实世界中的复杂情况。因此,多模态大模型的出现成为了解决这一问题的有效手段。 随后,论文针对多模态大模型的构建过程进行了详细的讨论。首先介绍了多模态数据的采集与预处理方法,包括各种传感器和设备的应用,以及数据对齐和归一化等技术。然后,论文详细介绍了多模态特征提取、融合和表示学习方法,包括传统的特征提取算法和深度学习方法等。 接着,论文重点讨论了多模态大模型在各个领域的应用。例如,在计算机视觉领域,多模态大模型能够通过融合图像和文本数据,实现更准确的图像分类和目标检测。在自然语言处理领域,多模态大模型能够通过融合文本和语音数据,实现更准确的情感分析和语音识别。此外,还介绍了多模态大模型在医学、金融、推荐系统等领域的应用。 最后,论文总结了多模态大模型技术的优势和挑战,并展望了未来的研究方向。多模态大模型技术的优势在于可以综合利用不同数据源的信息,提高模型的鲁棒性和泛化能力。然而,多模态大模型技术面临着数据集规模和计算复杂度的挑战,需要进一步研究和改进相应的算法和技术。 综上所述,《大模型技术进化论:多模态大模型综述》通过系统的介绍了多模态大模型技术的构建过程、应用领域和发展前景,对相关研究和应用人员具有重要的参考价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值