开源:
DeepSeek-R1T-Chimera,一个开放权重模型,结合了 R1 的智能和 V3 的tokens输出效率,在deepseek-V3-0324 具有新颖的构造方法。
效率:
在基准测试中,它似乎与 R1 一样智能,但速度要快得多,使用的输出令牌减少了 40%。
结构:
Chimera 是一个子 LLM,使用 V3s 共享专家,并通过 R1 和 V3s 路由专家的自定义合并进行增强。它不是微调或蒸馏,而是由两个父 MoE 模型的神经网络部分构建的。开发者表示没有检测到混合子模型的缺陷,并表示它的推理和思维过程似乎比 R1 父模型有时非常漫长和游离的思想更加紧凑和有序。
架构:
基于 Transformer 的 DeepSeek-MoE 语言模型
组合方法:
合并 DeepSeek-R1 和 DeepSeek-V3 的模型权重 (0324)
发行日期:
2025-04-27