视觉状态空间模型
文章平均质量分 97
Mamba状态空间模型的视觉应用
syugyou
这个作者很懒,什么都没留下…
展开
-
双向SSM: Vision Mamba Encoder
和原始论文一致,如果不选择use_fast_path,则会在这里计算完整个流程,而不是定位到selective_scan_interface中定义的函数,而是计算出SSM参数后再调用selective_scan_interface中定义的selective_scan_fn(),SSM数据依赖的参数有参数映射x_proj得到x_db1,然后切分得到B, C,delta参数。而是直接翻转后相加。mamba_inner_fn_no_out_proj 即相比于原始的mamba_inner_fn缺少了输出映射。原创 2024-03-16 22:36:40 · 3652 阅读 · 7 评论 -
VSSM VMamba实现
图中的SS2D和SS2D类的定义有偏差,简单来说是是包含SS2D块加一个残差连接,图中所示SS2D应表示状态空间模型SSM部分,即VSS块相比SS2D块只增加了残差连接和入口的归一化。对于ssm分支来说,其输入输出维度不变为(B, H, W, d_model) ,对于mlp分支来说中间的隐藏维度根据mlp_ratio参数定义会有所增加,但是最后又会映射为原来的维度,因此整体上并不改变输入的维度。下采样模块,通过2D卷积之后,长宽变为原来的一半,通道数不变。,嵌入后通道维变为96,原创 2024-03-14 23:14:57 · 5067 阅读 · 0 评论 -
VMamba:SS2D的实现
VSSM的核心是VSSBlock,VSSBlock的核心是SS2D,因此这篇文章主要介绍SS2D块,而且仅仅是简单梳理,不涉及原理解释,其中对变量所做的旋转翻转操作,应与交叉扫描机制有关。其与标准SSM多出的K参数,应该也与交叉扫描机制有关,理解能力有限,欢迎指出错误。原创 2024-03-13 23:07:46 · 9557 阅读 · 13 评论 -
【论文阅读】Vision Mamba:双向状态空间模型的的高效视觉表示学习
在这篇文章,我们展示对于视觉表示学习,不再依赖自注意力,提出一个新的泛用的视觉backbone基于双向Mamba块,通过位置嵌入来标示图片序列,通过双向状态空间模型压缩视觉表示。结果表示,Vim有能力解决在高分辨率图片上应用tranformer类型所导致计算和存储限制,有潜力成为下一代视觉基础模型的backbone。最近的工作,Mamba引入时变参数到SSMM而且提出一个硬件感知算法以保持其高效训练和推断,Mamba优秀的缩放表现表明在语言建模是Transformer的有前景的替代。原创 2024-03-13 22:58:51 · 3595 阅读 · 4 评论 -
【论文阅读】VMamba:视觉状态空间模型
受最近提出的状态空间模型启发,我们提出了视觉状态空间模型,在不牺牲感受野的情况下实现线性复杂度。为了解决遇到的方向感知问题,我们提出了交叉扫描模块(CSM)以遍历空间域并将任何非因果视觉图像转换为有序补丁序列。广泛实验结果说明VMamba不仅在多种视觉感知任务上取得优秀的成果,在不断提升图像分辨率训练表现上也展现了明显提升。VMamba在有效降低注意复杂度的关键概念来自选择性扫描状态空间模型(S6),原本被提出用来解决NLP问题。原创 2024-03-11 22:37:39 · 4237 阅读 · 0 评论