Mamba写代码真的超越Transformer！原始论文入选顶流新会议 | 最新快讯

最新推荐文章于 2024-07-18 10:42:36 发布

www3300300

最新推荐文章于 2024-07-18 10:42:36 发布

阅读量289

点赞数 13

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/www3300300/article/details/140513272

版权

　量子位公众号 QbitAI

　　“欧洲 OpenAI”和“Transformer 挑战者”强强联合了！

　　Mistral AI 刚刚推出了其第一个基于 Mamba2 架构的开源模型——Codestral Mamba（7B），专搞代码生成。

　　与 Transformer 架构不同，Mamba 架构可进行“线性时间推理”，理论上能够支持无限长度输入。

　　Mistral AI：这也就是为啥我们用 Mamba 架构推出的代码推理模型抗打。

　　Mistral AI 表示已经在最多 256k token 上下文中测试了 Codestral Mamba。

　　基准测试中，Codestral Mamba 总体性能超越 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。

　　有网友表示，这一波是 Mistral AI 要带飞 Mamba 架构的节奏。

　　Mamba 架构作者之一、CMU 助理教授 Albert Gu 表示：

具有较弱“tokenizations”的不同模态或数据格式（例如代码、byte 级建模）会越来越多地从压缩模型（如 SSM）中受益。

　　除了 Codestral Mamba，Mistral AI 这次还同时发布了一个新的数学模型——Mathstral（7B）。

　　有意思的是，网友让它做这几天大模型频频翻车的“9. 11 和 9.9 哪个大”的问题，Mathstral 先比较整数，然后再比较小数部分，最后成功做对。

　　7B 性能接近 22BTransformer

　　Codestral Mamba 完整基准测试结果如下：

　　在 HumanEval C++/Java/JavaScript/Bash 等所有基准上，Codestral Mamba 全面超越 CodeGemma-1.1 7B、CodeLlama 7B，且超越比它更大的 CodeLlama 34B。

　　Mistral AI 此前自家的最强开源编程模型 Codestral 22B 也没有和 Codestral Mamba 拉开太大差距。

　　除此外，DeepSeek v1.5 7B 在基准中也比较突出，和 Codestral Mamba 打得有来有回。

　　DeepSeek v1.5 7B 在 Spider（复杂跨域语义分析和文本到 SQL 任务）、HumanEval Java、HumanEval Bash、MBPP 等方面优于 Codestral Mamba。

　　除了基准测试结果，Codestral Mamba 最令人关注的当属它是首批 Mamba2 架构模型。

　　Mamba 架构由 FlashAttention 作者 Tri Dao 和 CMU 助理教授、Cartesia AI 联合创始人及首席科学家 Albert Gu 在去年年底提出。

　　此前，ChatGPT 等 Transformer 架构大模型有一大痛点：处理长文本算力消耗巨大。其背后也是因为 Transformer 架构中注意力机制的二次复杂度。

　　而 Mamba 是第一个真正实现匹配 Transformer 性能的线性时间序列模型，也是一种状态空间模型（SSM，State Space Model）。

　　Mamba 建立在更现代的适用于深度学习的结构化 SSM（S4, Structured SSM）基础上，与经典架构 RNN 有相似之处。

　　主要有三点创新：对输入信息有选择性处理、硬件感知的算法、更简单的架构。

　　Mamba 架构一问世就引起了圈内广泛关注。Stability AI 创始人、英伟达科学家 Jim Fan 等都对它的出现感到兴奋。

　　Mamba 初代论文年初被 ICLR 拒稿，当时在圈内引起热议。

　　不过，最近已经被新生代顶流会议 CoLM2024 接收了。

　　Mamba2 是其二代，状态空间扩大 8 倍，训练速度提高 50%。

　　Mamba2 论文中更是发现，Transformer 中的注意力机制与 SSM 存在着非常紧密的数学联系，论文成功入选 ICML 2024。

　　还发布了一个数学模型

　　除了 Codestral Mamba，Mistral AI 还同时推出了一个开源数学模型——Mathstral（7B），作为对阿基米德诞生 2311 周年的纪念。

　　Mathstral 在 Mistral 7B 基础之上，专注于 STEM（科学、技术、工程、数学），上下文窗口 32k。

　　在基准测试中，Mathstral MATH 得分 56.6%，MMLU 达到了 63.47%。

　　重点是，Mathstral 还可以通过更多的推理时间计算获得更好的结果：

　　使用多数投票机制时，Mathstral 7B 在 MATH 测试中的得分为 68.37%，而在 64 个候选模型中应用一个强效奖励模型时，得分能够提升到 74.59%。

　　以下是 Mathstral 7B 和 Mistral 7B 在 MMLU 各科目中的表现差异：

　　参考链接：

　　[1]https://mistral.ai/news/codestral-mamba/

　　[2]https://mistral.ai/news/mathstral/

　　[3]https://x.com/MistralAI/status/1813222156265791531

　　[4]https://x.com/GuillaumeLample/status/1813231491154899012

　　[5]https://x.com/theo_gervet/status/1813226968600469824

　　[6]https://x.com/tuturetom/status/1813238885453033540

　　[7]https://x.com/WenhuChen/status/1812562112524226569

来自: 网易科技

关注

13
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
Mamba写代码真的超越Transformer！原始论文入选顶流新会议 | 最新快讯

基准测试中，Codestral Mamba 总体性能超越 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。除了 Codestral Mamba，Mistral AI 还同时推出了一个开源数学模型——Mathstral（7B），作为对阿基米德诞生 2311 周年的纪念。Mamba 架构一问世就引起了圈内广泛关注。除了 Codestral Mamba，Mistral AI 这次还同时发布了一个新的数学模型——Mathstral（7B）。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

www3300300 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。