Codestral Mamba 7B: 基于 Mamba2 架构的 256K 上下文的模型,专注于代码生成。该模型在某些基准测试上的表现超过 22B 的非 Mamba 架构的 CodestralMathΣtral 7B:一个专为数学推理和科学发现设计的 7B 模型,在大部分数学方面的基准测试表现上力压通参数量的 DeepSeek、Llama3、Gemma2 和 Qwen2