Mamba
文章平均质量分 94
通街市密人有
https://github.com/LinY-ct
展开
-
VMamba: Visual State Space Model
卷积神经网络(CNN)和视觉Transformer(ViT)是视觉表征学习中最流行的两种基础模型。CNN在线性复杂度和图像分辨率方面表现出显著的可扩展性,而ViT在拟合能力方面超越了CNN,尽管它要与二次复杂度竞争。通过对全局感受野和动态权重的结合,ViT实现了卓越的视觉建模性能。这一观察结果促使我们提出一种新的架构,该架构继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了在不牺牲全局感受野的情况下实现线性复杂性的视觉状态空间模型(VMamba)。原创 2024-01-28 15:21:51 · 1739 阅读 · 0 评论 -
VM-UNet: Vision Mamba UNet for Medical Image Segmentation
在医学图像分割领域,基于CNN和基于Transformer的模型都得到了广泛的探索。然而,CNN在远程建模能力方面表现出局限性,而Transformer则受到二次计算复杂性的阻碍。最近,以Mamba为例的状态空间模型(SSM)作为一种很有前途的方法出现了。它们不仅在远程相互作用建模方面表现优异,而且保持了线性计算复杂度。本文利用状态空间模型,提出了一种用于医学图像分割的U-shaped架构模型,命名为视觉Mamba UNet (VM-UNet)。原创 2024-02-23 19:56:49 · 2597 阅读 · 0 评论