📖标题:Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory and Extrapolation
🌐来源:arXiv, 2505.03320
🌟摘要
🔸当序列远远超过训练长度时,Mamba 的理论无限上下文潜力在实践中受到限制。
🔸这项工作通过一种简单而有效的方法(Recall with Reasoning (RwR))探索解锁 Mamba 的长上下文记忆能力,通过从教师模型中提取思维链 (CoT) 摘要。具体来说,RwR 在微调期间将这些摘要前置为 CoT 提示,教 Mamba 主动回忆和推理长上下文。
🔸LONGMEMEVAL 和 HELMET 的实验表明,在相似的预训练条件下,RwR 比可比较的 Transformer/hybrid 基线提高了 Mamba 的长上下文性能,同时保留了短上下文能力,所有这些都没有架构变化。
🛎️文章简介
🔸研究问题:Mamba模型在处理超过训练长度的长上下文时记忆能力和推理能力不足。
🔸主要贡献:论文提出了一种新方法Recall with Reasoning (RwR),通过链式思维蒸馏直接提升Mamba的长上下文记忆能力,而无需丢弃输入的任何标记。
📝重点思路
🔸采用CoT蒸馏技术,不同于以往通过选择性去除不重要标记来提升Mamba的长上下文记忆能力,本研究直接使用所有输入标记。
🔸使用OpenOrca数据集和构建的数据集对Mamba进行训练,以解锁其从长输入上下文中回忆的能力。
🔸引入了分段总结策略,将长上下文分割成小段,以便模型能够更有效地处理并提取关键信息。
🔸设计了一种简单有效的推理策略,在推理阶段通过分割长上下文来提升性能。
🔎分析总结
🔸实验结果显示,RwR有效提高了Mamba在长上下文记忆任务上的表现,尤其在100k长度设置下,RwR的方法显著优于以往的压缩方法。
🔸在短上下文语言建模任务中,RwR方法没有对Mamba的基本语言建模能力产生负面影响,且在某些任务中表现略有提升。
🔸相较于传统Transformer模型,Mamba在长度外推能力上表现出色,尤其是在处理更长输入时,Mamba的效率明显高于其他模型。
💡个人观点
论文的创新点在于将链式思维蒸馏应用于长上下文记忆模型的提升,提供了一种Mamba模型优化方案来解决传统模型在处理长上下文时的不足。