CMU:指导LLM进行递归的自我改进

在这里插入图片描述

📖标题:Recursive Introspection: Teaching Language Model Agents How to Self-Improve
🌐来源:arXiv, 2407.18219

🛎️文章简介

🔸研究问题:如何训练大语言模型(LLM)具备自我改进能力?
🔸主要贡献:论文提出了一种名为RISE的方法,通过递归自省来微调基础模型,使其能够在多轮交互中自我改进预测能力。

📝重点思路

🔺相关工作

🔸通过构建与外部工具进行有效多轮交互的提示技术,能提高下游应用的推理和思维能力。
🔸通过提示技术让模型表达想法、自我批评和修正,虽然能够改进响应,但依赖详细的错误跟踪,需要额外给定所需的知识,但自我引导通常表现不太行。
🔸通过对LLM进行微调也可以获得自我改进能力,使用自我生成的响应训练来提高推理性能,并结合学习验证器、搜索、负面数据对比提示和迭代监督强化学习。

🔺论文方案

🔸目标:给定一个问题,通过多个回合、每个回合都有额外的改进指令,来提高模型对该问题的回答质量。
🔸思想:将单轮问题转换为多轮马尔可夫决策过程(MDP),通过收集数据在多轮MDP中训练自我改进能力。
🔸实现:给定一个问题,在每一轮中作答后,都会通过自蒸馏或者教师模型获取一个CoT+改进的响应,待收集完数据后运行离线奖励加权的监督学习算法来训练模型。
🔸响应改进:有预言机或者响应采样两种方案,前者是通过奖励模型判断是否正确、错误的迭代一次,后者是采样多个响应选择一个更好的

🔎分析总结

🔸RISE在多轮交互中显著提高了模型的性能,相比于其他方法,RISE能够持续提升性能。
🔸RISE的性能随着迭代训练的轮数增加而提升,表明迭代自训练过程可以与RISE结合,进一步提高模型的自我改进能力。
🔸RISE在未见过的分布外(OOD)提示上也表现出改进能力,说明RISE诱导的自我改进策略可以泛化到新的数据分布。

💡个人观点

论文提出的RISE方法通过递归自省和迭代自训练,成功地使语言模型在多轮交互中实现自我改进。

附录

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值