Mamba技术背景详解:从RNN到Mamba一文搞定!

文章探讨了Mamba模型,一种结合了Transformer的并行化能力和RNN的记忆控制,通过StateSpaceModel处理长序列。Mamba通过选择性扫描和硬件感知算法优化计算,解决了SSM在处理远程依赖和内容感知上的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Mamba

Transformer到Mamba

  • Tranformer缺陷:
    • 一次性矩阵每个token进行比较(支持并行化)
    • 推理缺陷:生成下一个token任务中,要算所有token的注意力(L^2)
  • RNN解决:
    • RNN只考虑之前隐藏状态和当前输入,防止重新计算所有先前状态
    • 但RNN会遗忘信息(不然就不会有Transformer出现了)
    • RNN是顺序循环——>训练不能并行

其实这也不能说是谁解决谁缺陷吧,毕竟lstm和transformer的出现就是为了解决RNN的遗忘的总之,RNN推理速度快,但不能并行,Transformer反之。

❓能否以某种方式找到一种像 Transformer 这样并行训练的架构,同时仍然执行随序列长度线性扩展的推理?

SSM(State Space Model

State Space:

SSM:预测下一个状态

  • 输入序列x(t)  —(在迷宫中向左和向下移动)
  • 潜在状态h(t) —(距离和 x/y 坐标)
  • 预测输出序列y(t) —(再次移动以更快到达出口)

然而,它不使用离散序列(如向左移动一次),而是将连续序列作为输入并预测输出序列。

A,B,C——>SSM

D——>skip connection(提供从输入到输出的直接信号)

SSM——>连续

连续信号到离散信号

Zero-order hold technique:

有了连续的输入信号,我们可以生成连续的输出,并且仅根据输入的时间步长对值进行采样,采样值就是我们的离散输出。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值