📖标题:Can Memory-Augmented Language Models Generalize on Reasoning-in-a-Haystack Tasks?
🌐来源:arXiv, 2503.07903
🌟摘要
🔸大型语言模型在推理任务中经常暴露出它们的脆弱性,尤其是在执行基于上下文的长链推理时。
🔸我们提出了MemReasoner,这是一种新的简单的记忆增强LLM架构,其中记忆学习上下文中事实的相对顺序,并能够跳过它们,而解码器则选择性地处理记忆。MemReasoner经过端到端的培训,可选择不同程度的支持事实监督。我们在两个不同的合成多跳推理任务上训练MemReasoner,以及现有的记忆增强变换器模型和状态空间模型。
🔸在各种具有挑战性的场景下进行的实验,包括测试集中存在长干扰文本或目标答案变化,表明MemReasoner在单跳和两跳任务上都有很强的泛化能力。MemReasoner的这种泛化是通过使用无到弱的支持事实监督来实现的(分别对一跳和两跳任务使用无和1%的支持事实)。相比之下,基线模型总体上难以推广,使用全面的支持性事实监督的好处要小得多。研究结果强调了外显记忆机制与额外的弱监督相结合对于提高大型语言模型对推理任务的上下文处理能力的重要性。
🛎️文章简介
🔸研究问题:当前基于Transformer的语言模型在处理长距离依赖和多步骤推理任务时存在局限性,尤其是在复杂的推理任务中,如何有效利用记忆机制提高模型的推理能力?
🔸主要贡献:论文提出了一种新的记忆增强语言模型架构MemReasoner,该模型能够在推理任务中有效执行时间处理和迭代读取,克服了现有模型在长上下文和复杂推理任务中的性能不足。
📝重点思路
🔸 MemReasoner架构的关键组成部分包括语言模型编码器、情节记忆模块和语言模型解码器。
🔸 引入了时间编码模块,以学习事实在记忆中的相对顺序,帮助选择性注意。
🔸 采用迭代读取和查询更新机制,使模型能够在推理任务中多次“跳跃”于事实之间,直到找到最终答案。
🔸 通过合成任务评估MemReasoner在多步推理任务中的表现,特别是在“干草堆”任务中进行推理。
🔎分析总结
🔸 实验结果表明,MemReasoner在单跳任务设置中,优于现有的循环基线模型和其他记忆增强模型,在处理复杂的推理场景时表现出更强的泛化能力。
🔸 在两跳任务中,引入弱监督的支持事实显著提高了模型的表现,表明MemReasoner可以有效利用额外信息来增强推理能力。
🔸 在长上下文任务中,MemReasoner在不同输入长度下维持了较高的准确性,尤其是在包含干扰项的情况下,表现出优越的鲁棒性。
💡个人观点
本文的核心是结合时间编码和迭代查询更新机制,解决长距离依赖和复杂推理任务中的关键问题。