Mamba写代码真的超越Transformer!原始论文入选顶流新会议 | 最新快讯

 量子位公众号 QbitAI

  “欧洲 OpenAI”和“Transformer 挑战者”强强联合了!

  Mistral AI 刚刚推出了其第一个基于 Mamba2 架构的开源模型——Codestral Mamba(7B),专搞代码生成。

  与 Transformer 架构不同,Mamba 架构可进行“线性时间推理”,理论上能够支持无限长度输入。

  Mistral AI:这也就是为啥我们用 Mamba 架构推出的代码推理模型抗打。

  Mistral AI 表示已经在最多 256k token 上下文中测试了 Codestral Mamba。

  基准测试中,Codestral Mamba 总体性能超越 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。

  有网友表示,这一波是 Mistral AI 要带飞 Mamba 架构的节奏。

  Mamba 架构作者之一、CMU 助理教授 Albert Gu 表示:

具有较弱“tokenizations”的不同模态或数据格式(例如代码、byte 级建模)会越来越多地从压缩模型(如 SSM)中受益。

  除了 Codestral Mamba,Mistral AI 这次还同时发布了一个新的数学模型——Mathstral(7B)。

  有意思的是,网友让它做这几天大模型频频翻车的“9. 11 和 9.9 哪个大”的问题,Mathstral 先比较整数,然后再比较小数部分,最后成功做对。

  7B 性能接近 22BTransformer

  Codestral Mamba 完整基准测试结果如下:

  在 HumanEval C++/Java/JavaScript/Bash 等所有基准上,Codestral Mamba 全面超越 CodeGemma-1.1 7B、CodeLlama 7B,且超越比它更大的 CodeLlama 34B。

  Mistral AI 此前自家的最强开源编程模型 Codestral 22B 也没有和 Codestral Mamba 拉开太大差距。

  除此外,DeepSeek v1.5 7B 在基准中也比较突出,和 Codestral Mamba 打得有来有回。

  DeepSeek v1.5 7B 在 Spider(复杂跨域语义分析和文本到 SQL 任务)、HumanEval Java、HumanEval Bash、MBPP 等方面优于 Codestral Mamba。

  除了基准测试结果,Codestral Mamba 最令人关注的当属它是首批 Mamba2 架构模型。

  Mamba 架构由 FlashAttention 作者 Tri Dao 和 CMU 助理教授、Cartesia AI 联合创始人及首席科学家 Albert Gu 在去年年底提出。

  此前,ChatGPT 等 Transformer 架构大模型有一大痛点:处理长文本算力消耗巨大。其背后也是因为 Transformer 架构中注意力机制的二次复杂度。

  而 Mamba 是第一个真正实现匹配 Transformer 性能的线性时间序列模型,也是一种状态空间模型(SSM,State Space Model)。

  Mamba 建立在更现代的适用于深度学习的结构化 SSM(S4, Structured SSM)基础上,与经典架构 RNN 有相似之处。

  主要有三点创新:对输入信息有选择性处理、硬件感知的算法、更简单的架构。

  Mamba 架构一问世就引起了圈内广泛关注。Stability AI 创始人、英伟达科学家 Jim Fan 等都对它的出现感到兴奋。

  Mamba 初代论文年初被 ICLR 拒稿,当时在圈内引起热议。

  不过,最近已经被新生代顶流会议 CoLM2024 接收了。

  Mamba2 是其二代,状态空间扩大 8 倍,训练速度提高 50%。

  Mamba2 论文中更是发现,Transformer 中的注意力机制与 SSM 存在着非常紧密的数学联系,论文成功入选 ICML 2024。

  还发布了一个数学模型

  除了 Codestral Mamba,Mistral AI 还同时推出了一个开源数学模型——Mathstral(7B),作为对阿基米德诞生 2311 周年的纪念。

  Mathstral 在 Mistral 7B 基础之上,专注于 STEM(科学、技术、工程、数学),上下文窗口 32k。

  在基准测试中,Mathstral MATH 得分 56.6%,MMLU 达到了 63.47%。

  重点是,Mathstral 还可以通过更多的推理时间计算获得更好的结果:

  使用多数投票机制时,Mathstral 7B 在 MATH 测试中的得分为 68.37%,而在 64 个候选模型中应用一个强效奖励模型时,得分能够提升到 74.59%。

  以下是 Mathstral 7B 和 Mistral 7B 在 MMLU 各科目中的表现差异:

  参考链接:

  [1]https://mistral.ai/news/codestral-mamba/

  [2]https://mistral.ai/news/mathstral/

  [3]https://x.com/MistralAI/status/1813222156265791531

  [4]https://x.com/GuillaumeLample/status/1813231491154899012

  [5]https://x.com/theo_gervet/status/1813226968600469824

  [6]https://x.com/tuturetom/status/1813238885453033540

  [7]https://x.com/WenhuChen/status/1812562112524226569

来自: 网易科技

  • 13
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

www3300300

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值