CMU：指导LLM进行递归的自我改进

最新推荐文章于 2024-09-30 14:16:32 发布

大模型任我行

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量362

点赞数 12

分类专栏：大模型-Agent 文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141397091

版权

大模型-Agent 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Recursive Introspection: Teaching Language Model Agents How to Self-Improve
🌐来源：arXiv, 2407.18219

🛎️文章简介

🔸研究问题：如何训练大语言模型（LLM）具备自我改进能力？
🔸主要贡献：论文提出了一种名为RISE的方法，通过递归自省来微调基础模型，使其能够在多轮交互中自我改进预测能力。

📝重点思路

🔺相关工作

🔸通过构建与外部工具进行有效多轮交互的提示技术，能提高下游应用的推理和思维能力。
🔸通过提示技术让模型表达想法、自我批评和修正，虽然能够改进响应，但依赖详细的错误跟踪，需要额外给定所需的知识，但自我引导通常表现不太行。
🔸通过对LLM进行微调也可以获得自我改进能力，使用自我生成的响应训练来提高推理性能，并结合学习验证器、搜索、负面数据对比提示和迭代监督强化学习。

🔺论文方案

🔸目标：给定一个问题，通过多个回合、每个回合都有额外的改进指令，来提高模型对该问题的回答质量。
🔸思想：将单轮问题转换为多轮马尔可夫决策过程（MDP），通过收集数据在多轮MDP中训练自我改进能力。
🔸实现：给定一个问题，在每一轮中作答后，都会通过自蒸馏或者教师模型获取一个CoT+改进的响应，待收集完数据后运行离线奖励加权的监督学习算法来训练模型。
🔸响应改进：有预言机或者响应采样两种方案，前者是通过奖励模型判断是否正确、错误的迭代一次，后者是采样多个响应选择一个更好的

🔎分析总结

🔸RISE在多轮交互中显著提高了模型的性能，相比于其他方法，RISE能够持续提升性能。
🔸RISE的性能随着迭代训练的轮数增加而提升，表明迭代自训练过程可以与RISE结合，进一步提高模型的自我改进能力。
🔸RISE在未见过的分布外（OOD）提示上也表现出改进能力，说明RISE诱导的自我改进策略可以泛化到新的数据分布。