![](https://img-blog.csdnimg.cn/direct/6a858754d1774c4e885a5b7a82843039.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Mamba状态空间模型
文章平均质量分 95
MODELING SEQUENCES WITH STRUCTURED STATE SPACES 翻译
syugyou
这个作者很懒,什么都没留下…
展开
-
Mamba.py: 状态空间模型的并行扫描
一个扫描定义为一个操作,把一个矩阵作为输入,产生一个矩阵作为输出。我个人理解:系统的输入或者说外部环境随时间变化,而我们系统也要随之不断更新,不断将这些变量“扫描”进去,因为我们只能处理离散信息,所以我们会有一个采样步长Δ\DeltaΔ,我们根据这些外部信息更新我们所需要的量,比如我们的输出量,控制量。扫描是外部变量的扫描,也是内部变量的扫描,所以在我看来,扫描的同义词是更新,扫描就是根据输入更新状态空间模型的参数和输出。下面是一个因果卷积网络。原创 2024-03-10 17:15:20 · 2050 阅读 · 4 评论 -
Mamba-minimal Mamba的最小限度实现 (二)
lm_head层则是预测下一个token的输出层,它将模型的输出映射到一个概率分布上,以便于模型预测下一个token,权重和Embedding公用。这里是剩余部分介绍,主要包括利用MambaBlock和其他组件如残差连接,归一化等定义一个序列模型。相比,为了可读性对参数没有很好的初始化,原论文用CUDA写了并行扫描,所以速度会快。一个完整的序列处理Mamba模型,包含多个被包裹的MambaBlock。一个包裹MambaBlock的一个残差块。在概率为top-k的输出中采样。来自demo.ipynb。原创 2024-03-09 17:03:09 · 954 阅读 · 1 评论 -
Mamba-minimal Mamba的最小限度实现 (一)
manba的简单最小限度实现,和原始论文实现state-spaces/mamba (github.com)](https://github.com/state-spaces/mamba/tree/main)相比,为了可读性对参数没有很好的初始化,原论文用CUDA写了并行扫描,所以速度会快。之后的数据尺寸以(b, l, d_in) 或者(b, l, d_model, d_state)简单表示。这是我们数据处理流水线的搭建,这一部分是ssm模型参数定义,是ssm模型中相对于数据“不变”的部分。原创 2024-03-08 23:58:54 · 1837 阅读 · 1 评论 -
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模(二)
我们的简化块设计结合了H3块,H3是大多数SSM结构的基础,有现代神经网络中无处不在的MLP块。因此,虽然选择机制可以被视为架构门控、超网络或数据依赖性等思想的特例,但大量其他结构也可以——基本上是任何具有乘法运算的结构,也包括标准注意力机制,但我们认为这样没有信息量。如在部分3.1讨论的一样,选择性最重要的属性是过滤掉我们不相关的信息以使一个序列模型的内容可以被压缩到哟个有效的状态。选择机制是一个广泛的概念,可以以不同的方式应用,例如在更传统的RNN和CNN,在不同的参数(例如算法2中的。原创 2024-03-05 22:30:42 · 1439 阅读 · 0 评论 -
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模(一)
最近,结构化状态序列模型成为一类有前景的序列建模结构。这些模型可以被解释成循环神经网络和卷积神经网络的结合,从经典状态空间模型中获得启发。这类模型可以被高效计算无论是卷积还是递归形式。但在建模离散和信息密集的模态如文本时没有那么有效。我们提出一类新的选择性状态空间模型。选择机制首先,我们得出先前模型的一个关键不足:以依赖输入的范式高效选择输入的能力。(即关注或者遗忘特定输入)。我们设计了一种简单的选择机制,通过基于输入来参数化SSM参数。无限地遗忘不相关信息或记忆相关信息。硬件感知算法。原创 2024-03-04 20:12:38 · 2242 阅读 · 0 评论 -
【论文翻译】结构化状态空间模型
当可能的时候,对角SSM在实际中使用是理想的因为它们的简单和灵活。然而,它们的强结构有时太过限制。特别是,Chapter 6将会说明基于HIPPO矩阵的重要SSM类(Chapter 4 和 5)不能在数值上表达为对角SSM,而使用一个对角结构的拓展替代。除了和部分二中的特殊SSM的关系,这个重参数化背后的想法和算法理论上是独立的,在之后的序列模型中会用到3.6.2。的第三章的部分翻译,为了解决计算上存在的代价问题,引入了结构化状态空间模型,介绍了对角结构化状态空间模型和低秩对角结构化状态空间模型。原创 2024-03-03 20:37:22 · 1366 阅读 · 1 评论 -
【论文翻译】MODELING SEQUENCES WITH STRUCTURED STATE SPACES 第一章
考虑一个输入函数utu(t)ut,一个固定的概率测度wtw(t)wt和一个N个正交基函数如多项式函数的序列。在每个时刻tttuuu在时刻ttt之前的历史可以被投影到这个基上,产生一个系数向量xtx(t)xt表示uuu的历史相对于所提供度量www的最优逼近。函数ut∈Rut∈R到系数xtx(t)xt的映射成为关于度量www的高阶多项式投影算子。在很多情况下,它的形式是x′AxtButx′AxtBut以及A。原创 2024-02-27 15:47:17 · 926 阅读 · 0 评论 -
【论文翻译】SSM状态空间模型的循环和卷积模式
总之,SS(S)M层作为序列模型的前向传播由一个离散化步骤构成,接着不同的等价方法计算离散SSM。我们称之为第一离散化的计算图之后是2.5为循环模式,相似地,我们称第一离散化的计算图和计算式2.7为卷积模式。Remark 2.4我们有时把这些简称为“RNN”模式和"CNN"模式。注意一层SSSM层并不是真正的神经网络-仅仅是一个线性序列变换-因此它们本身并不是一个RNN或者CNN。Remark 2.5这部分展示了从循环角度的离散化, 之后从展开递归推导离散卷积形式。原创 2024-03-01 17:09:20 · 1410 阅读 · 1 评论 -
【论文翻译】Mamba 中的状态空间模型背景
对应于Mamba作者博士论文的第二章状态空间模型背景部分翻译。Mamba 中的状态空间模型背景。原创 2024-02-29 15:13:45 · 1336 阅读 · 0 评论 -
【论文翻译】MODELING SEQUENCES WITH STRUCTURED STATE SPACES 附录A.1
我们考虑一个标准一个一阶初值问题(IVP)常微分方程(ODE)情形用于一个连续函数ftxf(t,x)ftxx˙tftxtxt0x0x˙tftxt))xt0x0这个微分形式有一个等价的积分形式xtx0∫t0tfsxsdsxtx0∫t0tfsxs))ds。原创 2024-02-28 17:53:21 · 571 阅读 · 0 评论 -
【论文翻译】SSM状态空间模型卷积和循环模式表达的解释
特别是,卷积表达是通过展开一个特定的LTI递归,这表明,只有卷积中受限制的一类可以表达为一个SSM,然而经典的结果表明几乎所有的卷积实际上都可以表达为一个SSM。然而,我们强调,这些概念上的联系得到了实质性的支持,经验证据表明,深度新型SSM/RNN的性能优于经典RNN。总的来说,SSM和这些流行的RNN模型都可以被看作近似于相同类型的潜在连续动力学,通过使用深度方向上的非线性近似和离散化(gates)和早时间方向上的离散化(gates)我们展示了 了两个和RNN和ODE相关的结果,可能引起广泛的兴趣。原创 2024-03-02 20:01:10 · 1131 阅读 · 0 评论