Reflexion:具有口头强化学习的语言智体

198 篇文章 0 订阅
157 篇文章 0 订阅

23年10月来自东北大学、MIT和普林斯顿大学的论文“Reflexion: Language Agents with Verbal Reinforcement Learning”。

大语言模型 (LLM) 已越来越多地用于作为目标驱动智体与外部环境(例如游戏、编译器、API)交互。然而,由于传统的强化学习方法需要大量的训练样本和昂贵的模型微调,这些语言智体仍然很难快速有效地从反复试验中学习。Reflexion 这个框架,不是通过更新权重来强化语言智体,而是通过语言反馈。具体来说,Reflexion 智体会口头反映任务反馈信号,然后在情景记忆缓冲区中维护自己的反映文本,在后续试验中诱导更好的决策。Reflexion 足够灵活,可以合并各种类型(标量值或自由形式语言)和来源(外部或内部模拟)的反馈信号,并在不同任务(顺序决策、编码、语言推理)中获得比基线智体显着的改进。

Reflexion 开发有一个模块化公式,利用三个不同的模型:一个Actor,表示为 Ma,它生成文本和动作;一个Evaluator 模型,以 Me 为代表,对 Ma 产生的输出进行评分;以及一个 Self-Reflection 模型,表示为 Msr,它生成口头强化提示帮助 Actor 进行自我完善。如图所示:Reflexion 在决策、编程和推理任务的应用

请添加图片描述

如图所示:(a)Reflexion 框图,(b)Reflexion的强化算法

请添加图片描述

Actor 建立在大型语言模型 (LLM) 之上,该模型专门用于根据状态观察生成必要的文本和操作。

Reflexion 框架的 Evaluator 组件在评估 Actor 生成的输出质量方面起着至关重要的作用。

以 LLM 为实例的Self-Reflection模型在反思框架中发挥着至关重要的作用,它通过产生口头自我反思来为未来的试验提供有价值的反馈。

Reflexion过程的核心组成部分,是短期和长期记忆的概念。在推理时,Actor 根据短期和长期记忆来调整其决策,类似于人类记住近期细节的同时从长期记忆中回忆提炼出重要经验的方式。在 RL 设置中,轨迹历史用作短期记忆,而Self-Reflection模型的输出则存储在长期记忆中。这两个记忆组件共同提供特定的背景,但也受到多次试验中吸取的教训影响,这是 Reflection 智体相对于其他 LLM 动作选择工作的一个关键优势。

Reflexion 被形式化为一个迭代优化过程。在第一次试验中,Actor 通过与环境交互产生轨迹 τ0。然后,Evaluator 产生一个分数 r0,其计算公式为 rt = Me(τ0)。rt 只是对试验 t 的一个标量奖励,随着任务特定绩效的提高而提高。第一次试验之后,为了将 r0 放大为可供 LLM 改进的反馈形式,Self-Reflection 模型会分析集合 {τ0 , r0 } 以生成摘要 sr0,该摘要存储在记忆 mem 中。srt 是针对试验 t 的口头经验反馈。Actor、Evaluator 和 Self-Reflection 模型通过循环试验一起工作,直到 Evaluator 认为 τt 是正确的。Reflexion 的记忆部分对其有效性至关重要。每次试验 t 之后,srt 都会附加到 mem 中。在实践中,通过存储经验的最大数量 Ω(通常设置为 1-3)来限制 mem,遵守最大上下文 LLM 限制。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值