【大模型理论篇】Kimi-1.5是DeepSeek-R1的有力竞争者

源泉的小广场

已于 2025-02-07 22:14:37 修改

阅读量2.6k

点赞数 48

分类专栏：大模型文章标签：强化推理 scalingRL kimi1.5 deepseek-r1 大模型强化学习 Long2short

于 2025-02-07 00:03:11 首次发布

本文链接：https://blog.csdn.net/weixin_65514978/article/details/145480654

版权

大模型专栏收录该内容

105 篇文章

订阅专栏

1. Kimi-1.5与DeepSeek-R1的对比

DeepSeek-R1火出圈，这个是不争的事实，但在背后，其实也隐藏了一位有力的竞争者Kimi-1.5。先让我们一起来看下两位选手的对比。

1.1 技术报告呈现的效果对比

上图是Kimi-1.5【1】，下图是DeepSeek-R1【2】。从同样的数据集（AIME 2024、MATH 500、 Codeforces）测试来看，两者非常接近，与OpenAI的o1的差距也很接近。

1.2 官网使用

kimi官网同样已经开放K1.5的使用，而且大家的界面长得都一样，和OpenAI的chatgpt也一模一样。形式上总体看趋同。目前智谱清言还是没有趋同，有自己的风格，以多场景的智能体形式提供服务。不过对于C端用户来说，kimi和deepseek的ui会更顺手一些，操作和理解的门槛也会更低。

老样子，还是用一个古诗标注拼音的任务来对比下两者，之前我们在《DeepSeek-R1与O1复现的技术路线对比及R1展现出OpenAI Moment的价值探讨》中用该任务提示语对比了DeepSeek-R1和GLM-Zero-Preview的效果，总体上还是DeepSeek-R1更优。

首先从结果来看，两者都正确。其次从thinking的篇幅来看，也想近，表现都还可以。结果输出的格式，deepseek稍微更符合习惯一些。能力基本打平。

1.3 技术路线对比

关于DeepSeek-R1的实现，可以参考《DeepSeek-R1:引入冷启动的强化学习》、《DeepSeek-R1-Zero之关键技术GRPO解析》、《DeepSeek-R1与O1复现的技术路线对比》。

本篇章主要分析下Kimi-1.5的实现方案。

关于k1.5的设计与训练，有以下几个关键要素。

• 长文本上下文扩展

将强化学习的上下文窗口扩展至128k，并观察到随着上下文长度的增加，性能持续提升。我们方法的一个关键理念是利用部分回放（rollouts）来提高训练效率——即通过重用之前轨迹的大部分来采样新的轨迹，避免从头生成新轨迹的成本。我们的观察确定了上下文长度是强化学习与大型语言模型持续扩展的关键维度。

• 改进的策略优化

推导出一种结合长推理链（CoT）的强化学习公式，并采用在线镜像下降的一种变体进行稳健的策略优化。通过有效的采样策略、长度惩罚以及数据配方的优化，该算法得到了进一步改进。

• 简洁的框架

长文本上下文扩展与改进的策略优化方法相结合，为使用大型语言模型进行学习建立了一个简洁的强化学习框架。由于能够扩展上下文长度，所学到的推理链展现出规划、反思和纠错的特性。上下文长度的增加相当于增加了搜索步骤的数量。

因此，k1.5也证明了无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术，能实现强大的性能。

• 多模态

初次之外，模型在文本和视觉数据上进行联合训练，具备对这两种模态进行联合推理的能力。

k1.5还提出了有效的从长到短（long2short）方法，这些方法利用长推理链技术来改进短推理链模型。具体而言，该方法包括对长推理链激活应用长度惩罚以及模型合并。

在k1.5论文中，提到长 CoT 监督微调。kimi利用 RL 提示集，通过提示工程构建了一个小型但高质量的长 CoT 预热数据集，包含针对文本和图像输入的准确验证推理路径。这种方法类似于拒绝采样（RS），但侧重于通过提示工程生成长 CoT 推理路径。所得的预热数据集用于封装人类推理的关键认知过程，如规划（模型在执行前系统地概述步骤）、评估（对中间步骤进行批判性评估）、反思（使模型重新考虑和完善其方法）和探索（鼓励考虑替代解决方案）。通过对该预热数据集进行轻量级 SFT，可以有效地使模型内化这些推理策略。结果，微调后的长 CoT 模型在生成更详细和逻辑连贯的响应方面表现出改进的能力，从而提高了其在多样化推理任务中的性能。

这个过程极其类似DeepSeek-R1的cold-start过程。从两篇对轮对比来看，有很多相似的地方，甚至我都一度怀疑他们中部分同学私底下有技术交流。

并且Kimi提到对于RL中的奖励设计，对于可验证的问题，奖励直接由预定义的标准或规则确定。例如，在编程问题中，评估答案是否通过了测试用例。对于具有自由形式真值的问题，训练一个奖励模型 r(x,y,y∗) 来预测答案是否与真值匹配。给定一个问题 x，模型 πθ 通过采样过程 z∼πθ(⋅∣x)，y∼πθ(⋅∣x,z) 生成 CoT 和最终答案。生成的 CoT 的质量通过其是否能导致正确的最终答案来评估。这也非常类似DeepSeek-R1中的Reward设计。两家公司的实现有异曲同工之妙，可以参考着来看。两篇文章都是同一天发表的，只能说很巧合。

2. Long2short: Context Compression for Short-CoT Models

这个是kimi1.5中提出的技术，非常有意思。尽管长推理链（Long-CoT）模型能够实现强大的性能，但其在测试时消耗的token数量相比标准的短 CoT 大型语言模型（LLM）更多。那么是否有可能将长 CoT 模型的思维先验转移到短 CoT 模型中，从而即使在测试时token预算有限的情况下也能提升性能。针对long2short问题，kimi提出了几种方法，包括模型合并、最短拒绝采样、DPO以及long2short强化学习（RL）。