月之暗面开源混合线性注意力模型:Kimi-Linear-48B-A3B-Instruct

部署运行你感兴趣的模型镜像
一、概述

本文介绍了由 Moonshot AI 提出的 Kimi Linear 模型,这是一种混合线性注意力架构,在短文本、长文本以及强化学习(RL)等多种任务场景中,均优于传统的全注意力机制。Kimi Linear 的核心是 Kimi Delta Attention(KDA),一种基于门控 Delta 规则的线性注意力机制,具备更高的效率和更强的长上下文处理能力。

该模型在 1.4T token 上训练,支持最长 1M 的上下文长度,显著降低了 KV 缓存使用量(减少约 75%),并在解码速度上实现了最高 6 倍 的提升。


二、模型架构与核心机制
  1. Kimi Delta Attention(KDA)

    • 是对 Gated DeltaNet 的改进,采用更精细的门控机制。

    • 实现了线性注意力计算,适用于长序列建模。

    • 在保持性能的同时,显著降低计算和内存开销。

  2. 混合架构设计

    • 采用 3:1 的 KDA 与全局 MLA(Multi-head Latent Attention)混合比例

    • 在减少内存占用的同时,维持甚至超越全注意力模型的性能。

  3. 高效推理与部署

    • 支持在 Hugging Face Transformers 和 vLLM 上部署。

    • 提供 OpenAI 兼容的 API 接口,便于集成与使用。


三、性能表现
  • MMLU-Pro(4k 上下文) 上,Kimi Linear 达到 51.0 的性能,与全注意力模型相当。

  • RULER(128k 上下文) 上,取得 84.3 的 Pareto 最优性能,并实现 3.98 倍加速。

  • 在超长文本(1M token)场景下,Kimi Linear 的 TPOT(Time Per Output Token) 比 MLA 快 6.3 倍。


四、开源与使用
  • 模型已开源,包含两个版本:

    • Kimi-Linear-Base:基础模型,适用于通用任务。

    • Kimi-Linear-Instruct:指令微调版本,适用于对话与指令跟随任务。

  • 提供基于 fla-core 的推理支持,兼容 transformersvLLM

  • 示例代码展示了如何加载模型并进行推理。


五、核心技术汇总表

在这里插入图片描述


如需进一步了解模型细节或下载使用,可访问 Hugging Face 页面:moonshotai/Kimi-Linear-48B-A3B-Instruct

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值