腾讯：LLM思维链蒸馏学习-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147860634

在这里插入图片描述

📖标题：Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory and Extrapolation
🌐来源：arXiv, 2505.03320

🌟摘要

🔸当序列远远超过训练长度时，Mamba 的理论无限上下文潜力在实践中受到限制。
🔸这项工作通过一种简单而有效的方法（Recall with Reasoning (RwR)）探索解锁 Mamba 的长上下文记忆能力，通过从教师模型中提取思维链 (CoT) 摘要。具体来说，RwR 在微调期间将这些摘要前置为 CoT 提示，教 Mamba 主动回忆和推理长上下文。
🔸LONGMEMEVAL 和 HELMET 的实验表明，在相似的预训练条件下，RwR 比可比较的 Transformer/hybrid 基线提高了 Mamba 的长上下文性能，同时保留了短上下文能力，所有这些都没有架构变化。

🛎️文章简介

🔸研究问题：Mamba模型在处理超过训练长度的长上下文时记忆能力和推理能力不足。
🔸主要贡献：论文提出了一种新方法Recall with Reasoning (RwR)，通过链式思维蒸馏直接提升Mamba的长上下文记忆能力，而无需丢弃输入的任何标记。

📝重点思路

🔸采用CoT蒸馏技术，不同于以往通过选择性去除不重要标记来提升Mamba的长上下文记忆能力，本研究直接使用所有输入标记。
🔸使用OpenOrca数据集和构建的数据集对Mamba进行训练，以解锁其从长输入上下文中回忆的能力。
🔸引入了分段总结策略，将长上下文分割成小段，以便模型能够更有效地处理并提取关键信息。
🔸设计了一种简单有效的推理策略，在推理阶段通过分割长上下文来提升性能。

🔎分析总结

🔸实验结果显示，RwR有效提高了Mamba在长上下文记忆任务上的表现，尤其在100k长度设置下，RwR的方法显著优于以往的压缩方法。
🔸在短上下文语言建模任务中，RwR方法没有对Mamba的基本语言建模能力产生负面影响，且在某些任务中表现略有提升。
🔸相较于传统Transformer模型，Mamba在长度外推能力上表现出色，尤其是在处理更长输入时，Mamba的效率明显高于其他模型。