Mamba序列建模架构的理解

最新推荐文章于 2025-03-13 10:13:22 发布

Showi萧

最新推荐文章于 2025-03-13 10:13:22 发布

阅读量629

点赞数 11

文章标签：机器学习 python 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44504525/article/details/136308944

版权

本文介绍了Mamba，一种结合了RNN的递归生成和CNN的并行计算的模型，具有O(n)推理复杂度。通过参数预测增强学习性，虽然训练时需依赖强大的前缀和算法，但整体上提升了计算效率。它是Transformer挑战者的有力竞争者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

序列建模架构Mamba

记录一下刚学到的mambda的基本内容

大致理解

mambda是改进的RNN，其可以变换为RNN的递归生成形式也可以变换为CNN的并行生成形式。
在推理的时侯为O(n)复杂度。训练时，由于前缀和算法的牛逼，复杂度降到O(nlogn)?

1.

首先是一个简化的RNN形式的公式：
在这里插入图片描述

2. 但也可以变换为CNN

在这里插入图片描述
y3可以由x0,x1,x2,x3一起并行计算得出

3. 于是有了：

在这里插入图片描述

4.同时为了增加可学习性，让ABC等参数都可以随着输入而改变。

即用一个网络根据输入预测参数值
在这里插入图片描述

5. 无法用CNN方式进行训练，只能用RNN形式

而为了加速计算。则需要求下式，也就是像一个前缀和一样的东西。

那么可以用超强的前缀和并行算法来计算：
在这里插入图片描述

reference

[1] Mamba原理最通俗介绍火了，一文看懂“Transformer挑战者”两大主要思想！网友：年度最佳解读 - 量子位的文章 - 知乎链接: link

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。