腾讯:LLM思维链蒸馏学习

在这里插入图片描述

📖标题:Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory and Extrapolation
🌐来源:arXiv, 2505.03320

🌟摘要

🔸当序列远远超过训练长度时,Mamba 的理论无限上下文潜力在实践中受到限制。
🔸这项工作通过一种简单而有效的方法(Recall with Reasoning (RwR))探索解锁 Mamba 的长上下文记忆能力,通过从教师模型中提取思维链 (CoT) 摘要。具体来说,RwR 在微调期间将这些摘要前置为 CoT 提示,教 Mamba 主动回忆和推理长上下文。
🔸LONGMEMEVAL 和 HELMET 的实验表明,在相似的预训练条件下,RwR 比可比较的 Transformer/hybrid 基线提高了 Mamba 的长上下文性能,同时保留了短上下文能力,所有这些都没有架构变化。

🛎️文章简介

🔸研究问题:Mamba模型在处理超过训练长度的长上下文时记忆能力和推理能力不足。
🔸主要贡献:论文提出了一种新方法Recall with Reasoning (RwR),通过链式思维蒸馏直接提升Mamba的长上下文记忆能力,而无需丢弃输入的任何标记。

📝重点思路

🔸采用CoT蒸馏技术,不同于以往通过选择性去除不重要标记来提升Mamba的长上下文记忆能力,本研究直接使用所有输入标记。
🔸使用OpenOrca数据集和构建的数据集对Mamba进行训练,以解锁其从长输入上下文中回忆的能力。
🔸引入了分段总结策略,将长上下文分割成小段,以便模型能够更有效地处理并提取关键信息。
🔸设计了一种简单有效的推理策略,在推理阶段通过分割长上下文来提升性能。

🔎分析总结

🔸实验结果显示,RwR有效提高了Mamba在长上下文记忆任务上的表现,尤其在100k长度设置下,RwR的方法显著优于以往的压缩方法。
🔸在短上下文语言建模任务中,RwR方法没有对Mamba的基本语言建模能力产生负面影响,且在某些任务中表现略有提升。
🔸相较于传统Transformer模型,Mamba在长度外推能力上表现出色,尤其是在处理更长输入时,Mamba的效率明显高于其他模型。

💡个人观点

论文的创新点在于将链式思维蒸馏应用于长上下文记忆模型的提升,提供了一种Mamba模型优化方案来解决传统模型在处理长上下文时的不足。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值