📖标题:Recursive Introspection: Teaching Language Model Agents How to Self-Improve
🌐来源:arXiv, 2407.18219
🛎️文章简介
🔸研究问题:如何训练大语言模型(LLM)具备自我改进能力?
🔸主要贡献:论文提出了一种名为RISE的方法,通过递归自省来微调基础模型,使其能够在多轮交互中自我改进预测能力。
📝重点思路
🔺相关工作
🔸通过构建与外部工具进行有效多轮交互的提示技术,能提高下游应用的推理和思维能力。
🔸通过提示技术让模型表达想法、自我批评和修正,虽然能够改进响应,但依赖详细的错误跟踪,需要额外给定所需的知识,但自我引导通常表现不太行。
🔸通过对LLM进行微调也可以获得自我改进能力,使用自我生成的响应训练来提高推理性能,并结合学习验证器、搜索、负面数据对比提示和迭代监督强化学习。
🔺论文方案
🔸目标:给定一个问题,通过多个回合、每个回合都有额外的改进指令,来提高模型对该问题的回答质量。
🔸思想:将单轮问题转换为多轮马尔可夫决策过程(MDP),通过收集数据在多轮MDP中训练自我改进能力。
🔸实现:给定一个问题,在每一轮中作答后,都会通过自蒸馏或者教师模型获取一个CoT+改进的响应,待收集完数据后运行离线奖励加权的监督学习算法来训练模型。
🔸响应改进:有预言机或者响应采样两种方案,前者是通过奖励模型判断是否正确、错误的迭代一次,后者是采样多个响应选择一个更好的
🔎分析总结
🔸RISE在多轮交互中显著提高了模型的性能,相比于其他方法,RISE能够持续提升性能。
🔸RISE的性能随着迭代训练的轮数增加而提升,表明迭代自训练过程可以与RISE结合,进一步提高模型的自我改进能力。
🔸RISE在未见过的分布外(OOD)提示上也表现出改进能力,说明RISE诱导的自我改进策略可以泛化到新的数据分布。
💡个人观点
论文提出的RISE方法通过递归自省和迭代自训练,成功地使语言模型在多轮交互中实现自我改进。
附录