摘要
大型预训练模型在不同模态的推理和规划任务中表现出日益增强的性能,这为利用它们解决复杂的序列决策问题提供了可能。本文中,我们探究了大型语言模型(LLMs)在多样化交互领域中的强化学习(RL)能力。我们评估了这些模型直接通过生成行动或间接通过首先生成奖励模型以使用RL训练代理来产生决策策略的能力。研究结果表明,即使没有针对特定任务的微调,LLMs在奖励建模方面也表现出色。特别是,通过人工智能(AI)反馈设计奖励被证明是最具普遍适用性的方法,并且可以通过改进信用分配和探索来提升性能。最后,在具有不熟悉动态的环境中,我们探讨了如何通过合成数据对LLMs进行微调可以显著提升其奖励建模能力,同时减少灾难性遗忘现象,进一步拓宽它们在序列决策任务中的实用性。
1 引言
大型语言模型(LLMs)是能够生成准确的一般性和领域特定知识的自然语言生成模型(Singhal等人,2022;Imani等人,2023;Manigrasso等人,2024;Liu等人,2024a),能够在长文本上下文中进行推理(Reid等人,2024),并能实现零样本泛化(Kojima等人,2022)。这些能力表明LLMs可能非常适合解决复杂的序列决策问题,例如在实体环境中代理执行动作的情况。近期的研究开始探索这种潜力,研究如何将LLMs用作内在动机的来源(Wang等人,2024;Klissarov等人,2024),展示世界建模的能力(Lin等人,2024;Liu等人,2024b),以及直接在环境中行动和/或规划(Wang等人,2023;Padalkar等人,2023;Zhang等人,2024)。
然而,由于训练LLMs的主要范式并不天然与如主动探索等序列决策问题的挑战相匹配,因此如何以一种通用的方式最佳地利用它们来应对这些挑战尚不清楚。我们通过强化学习(RL, Sutton & Barto, 2018)的角度研究了这一问题,该方法形式化了代理如何与环境互动,在轨迹上的每个动作都接收标量奖励。我们比较了LLMs解决RL任务的能力:1) 直接通过生成动作标记建模策略,以及2) 间接通过从LLM中提取并在RL算法中使用的奖励模型来建模策略。我们在多样化的领域上进行了全面评估,包括MiniWob(Liu等人,2018)、NetHack(Küttler等人,2020)、Wordle(Lokshtanov & Subercaseaux, 2022)和MetaWorld(Yu等人,2019)。我们研究的环境提出了多种挑战,比如不同的动作空间粒度、从自然语言到像素数据的不同观察模式、以及变化的时间长度。
首先,我们考虑了不通过来自RL任务的额外梯度更新来改进LLMs的现成功能,用于决策制定。我们发现,通过首先以Bradley-Terry模型的形式从LLMs中提取知识(Bradley & Terry, 1952;Christiano等人,2017)间接建模策略提供了在我们研究的所有环境中最佳且最一致的表现。我们对该方法提供的各种优势和局限性进行了实证分析,展示了它如何改善RL问题中的长期挑战,如信用分配和探索。
最后,虽然LLMs拥有许多对感兴趣的决策任务有用的知织,但在动态复杂或不熟悉的领域中,其更广泛的实用性可能会受到显著限制。我们探讨了使用领域特定数据微调LLM如何弥补这一知识差距,并研究了这一过程对其之前知识的影响,这可以通过在POPE(Li等人,2023b)、GQA(Hudson & Manning, 2019)、AI2D(Kembhavi等人,2016)和MMMU(Yue等人,2024)等数据集上的成功率来衡量。我们的研究表明,针对间接策略建模的微调比直接策略建模更能缓解灾难性遗忘,为跨多样化序列决策任务利用LLMs提供了一种广泛适用的策略。
2 使用语言模型解决RL任务
我们首先介绍RL问题的类型,并正式描述本工作中用于RL任务的语言模型使用方法。
强化学习。一个RL任务可以通过马尔可夫决策过程(MDP,Puterman, 2014)来定义,该过程包括状态空间S、动作空间A、描述系统前向动态的转移函数p : S × A → ∆(S)、奖励函数r : S × A → R和折扣因子γ ∈ [0, 1]。由于通常只能部分观察到状态,我们还假设环境从观察空间O中发出一个观测ot ∼ pO : S → ∆(O)。策略或行动者是概率分布π : S → ∆(A),它描述了每个步骤应采取的动作。理性行动者的目标是在时间范围H > 0内最大化预期累计奖励,
max
π
E
[
∑
t
=
0
H
γ
t
r
(
s
t
,
π
(
s
t
)
)
∣
s
0
]
=
max
π
E
s
0
[
V
π
(
s
0
)
]
\max_{\pi} \mathbb{E}\left[\sum_{t=0}^{H} \gamma^t r(s_t, \pi(s_t)) | s_0\right] = \max_{\pi} \mathbb{E}_{s_0}[V^{\pi}(s_0)]
maxπE[∑t=0Hγtr(st,π(st))∣s0]=maxπEs0[Vπ(s0)]
其中价值函数
V
π
(
s
)
V^{\pi}(s)
Vπ(s)代表整个轨迹上预期折扣奖励总和,根据环境的动力学模型p和行动者的策略π重新加权。
大型语言模型。LLM是一个基于历史(即上下文)条件下的离散随机变量(即标记)生成模型。LLM自回归地建模数据分布:
p
(
x
t
+
1
∣
x
1
,
.
.
.
,
x
t
)
=
∏
t
′
t
p
(
x
t
′
∣
x
<
t
′
)
=
L
L
M
(
x
<
t
,
l
)
p(x_{t+1}|x_1, ..., x_t) = \prod_{t'}^{t} p(x_{t'}|x_{<t'}) = LLM(x_{<t}, l)
p(xt+1∣x1,...,xt)=∏t′tp(xt′∣x<t′)=LLM(x<t,l)
其中
x
∈
X
x \in X
x∈X是从有效词汇表中选取的标记变量。LLMs在没有额外微调的情况下解决RL任务的适用性主要取决于假设LLMs包含有关基础MDP的信息——例如通过策略或奖励函数。信息如何被提取取决于LLM训练所用的数据、从业者正确提示模型并解释其响应以解决问题的能力。
2.1 提示
在这一节中,我们描述了本工作中使用的LLM的输入或提示,这使得能够改变LLM的输出分布以利于解决RL任务。本工作中的所有提示均使用:1) 自然语言形式的任务说明作为输入,提供关于MDP的信息给LLM作为上下文;2) 历史记录,以便在某些环境中解决部分可观测性问题(类似于Yao等人,2022年发现的仅行动基线提示)。此外,我们使用以下技术集合:
- 思维链。通过提示LLM为其输出提供逐步推理过程,而不仅仅是最终答案,我们可以帮助揭示其内部决策过程并提高性能(Wei等人,2022)。
- 上下文学习。为了增强LLM解决任务的能力,提供了示例解决方案(例如,来自专家策略),用于上下文学习(Brown等人,2020),其中解决方案包含状态、动作和奖励的组合序列。
- 自我精炼。为了进一步优化其输出,LLM被提示对其生成的输出进行递归批评和改进。这种通用策略有许多变体,如来自环境的反馈(Yao等人,2022)、自我批判(Zelikman等人,2022)或自我反思(Shinn等人,2023)。在这项工作中,我们使用递归批评和改进(RCI, Kim等人,2024)因其在web代理领域的最新性能和广泛应用性。在其原始形式中,LLM获得任务描述并生成高级计划。这个计划与任务描述和当前状态一起使用,以细化一个动作,使其基于当前观察和动作空间。
2.2 使用LLMs进行策略建模
如公式1所示,决策代理的目标是学习高性能的策略π。这可以通过最大化预期累计奖励并直接对策略参数进行建模来实现(Sutton等人,1999;Kakade & Langford,2002)。同样地,这也可以间接完成,首先对价值函数的参数进行建模,并应用贪婪操作符,如Q学习(Watkins & Dayan,1992)。类似地区分直接和间接方法有助于研究LLMs在建模RL策略方面的能力。
直接策略建模。使用LLMs获得策略最直接的方法是让LLM生成将被直接解释为来自环境的动作a ∈ A的标记(Yao等人,2022;Shinn等人,2023;Kim等人,2024)。为了确保输出的动作符合环境的动作集,可以使用投影操作符proj(·, A)将LLM输出的标记映射回A(例如,参见Huang等人,2022;Kim等人,2024,有关投影操作符的例子)。结合多种提示技术可以增加LLM作为策略行动的能力,而无需针对特定任务进行微调,我们在2.1节中详细说明了这一点。这种直接策略方法在我们的实验中被称为“LLM策略”。
间接策略建模。另一方面,我们可以提示LLM输出代表中间量的标记,这些标记随后将用于学习策略。例如,可以对环境的前向动态进行建模以进行规划(Liu等人,2024b),或者为动作选择建立一个可负担性模型(Mullen Jr & Manocha,2024)。
在这项工作中,我们专注于使用这些中间量来生成奖励——即奖励模型——然后通过现成的RL策略进行最大化的情况。在2.3节中,我们列出了本工作中涵盖的使用LLMs建模奖励函数的不同方法。需要注意的是,间接建模策略的方式还有很多。在附录A.4中,我们详细介绍了这些可能性,并在图2b中提供了初步调查结果,展示了它们的潜力和局限性。
在直接策略建模实验(LLM策略)中,我们发现结合2.1节中的所有提示技术效果最佳,而对于通过奖励进行的间接建模方法,我们仅依赖于思维链提示。关于这些选择的具体提示细节和消融实验的额外详情,请参见附录A.3。
2.3 通过奖励模型间接建模策略
我们考虑了使用LLMs对奖励函数进行建模的多种方法,特别关注那些适用于多样环境和模式的方法。我们研究了以下几种方法:
-
直接标量。(Kwon等人,2023)LLM生成直接编码奖励的标记(例如,作为浮点数或整数),给定一个观察(或一系列观察和动作)。然后将这个奖励提供给RL代理。
-
AI反馈。(Lee等人,2023;Klissarov等人,2024)让LLM表达在两个观察 o 1 o_1 o1和 o 2 o_2 o2之间对于哪一个更接近某个目标的偏好 y = { 1 , 2 , ϕ } y = \{1, 2, \phi \} y={1,2,ϕ},或者如果两个观察同样好则表示没有偏好。这些标签可以被收集为一个观察-偏好的数据集 D p r e f = { ( o 1 i , o 2 i , y i ) } i = 1 M D_{pref} = \{(o^i_1, o^i_2, y^i)\}^M_{i=1} Dpref={(o1i,o2i,yi)}i=1M,然后用于训练一个奖励函数,该函数被建模为:
r θ = arg min θ E ( o 1 , o 2 , y ) ∼ D p r e f [ I [ y = 1 ] log P θ [ o 1 ≻ o 2 ] + I [ y = 2 ] P θ [ o 2 ≻ o 1 ] + 1 2 I [ y = ∅ ] log ( P θ [ o 1 ≻ o 2 ] P [ o 2 ≻ o 1 ] ) ] r_\theta = \arg\min_\theta \mathbb{E}_{(o_1, o_2, y) \sim D_{pref}} \left[ \mathbb{I}[y=1] \log P_\theta[o_1 \succ o_2] + \mathbb{I}[y=2] P_\theta[o_2 \succ o_1] + \frac{1}{2} \mathbb{I}[y=\emptyset] \log \left( P_\theta[o_1 \succ o_2] P[o_2 \succ o_1] \right) \right] rθ=argminθE(o1,o2,y)∼Dpref[I[y=1]logPθ[o1≻o2]+I[y=2]Pθ[o2≻o1]+21I[y=∅]log(Pθ[o1≻o2]P[o2≻o1])]
这里, P θ [ o 1 ≻ o 2 ] = e r θ ( o 1 ) e r θ ( o 1 ) + e r θ ( o 2 ) P_\theta[o_1 \succ o_2] = \frac{e^{r_\theta(o_1)}}{e^{r_\theta(o_1)}+e^{r_\theta(o_2)}} Pθ[o1≻o2]=erθ(o1)+erθ(o2)erθ(o1)代表根据参数 o 1 o_1 o1优于 o 2 o_2 o2的概率。 I [ ⋅ ] I[\cdot] I[⋅]是指示函数,当条件满足时返回1,否则返回0。
这种方法通过比较不同状态之间的偏好来学习奖励函数,而不是直接从环境中获取标量奖励值。它特别适用于那些难以定义明确奖励函数的情况,或者是奖励信号稀疏的情形。通过这种方式,LLM能够基于人类的偏好反馈间接指导策略的学习,从而提高决策的质量和效率。此外,这种方法还能够增强探索过程,因为它允许基于相对偏好而非绝对奖励值来调整策略。
3 直接与间接政策模型的表现
由于直接和间接政策建模方法之间存在根本性的挑战,因此进行公平比较需要谨慎。例如,直接将大语言模型(LLM)作为政策使用时,需要将其输出与环境定义的行动空间进行关联(Ahn et al., 2022;Huang et al., 2022)。由于行动空间在不同环境之间可能会显著变化,尝试解决这个问题会增加额外的算法或领域特定的复杂性(例如,通过设计技能,见(Ahn et al., 2022;Wang et al., 2023)),因此我们将实验设置固定为以下几点:
-
原子行动:我们只研究能够直接与环境中支持的行动空间接口的方法。换句话说,行动空间至少是LLM生成的语言空间的一个子空间。这允许我们在各种领域之间进行更直接的比较,并研究LLM的知识与环境定义的固定行动空间之间的关系。
-
无微调:在大多数论文中,我们假设LLM在没有任何梯度更新的情况下使用,即没有从强化学习任务中进行微调,并评估其开箱即用的能力。在第5节中,我们对直接和间接政策建模的微调之间的权衡进行了初步研究。
我们调查了四个独立的领域,每个领域旨在突出LLM的特定能力:1)MiniWob-Hard,这是全MiniWob套件中的一组困难任务,测试接近自然语言的观察/行动空间中的网络交互;2)Wordle 衡量推理和规划能力;3)NetHack 展现了在部分可观察性、长时间跨度和程序场景下探索开放环境的难度;4)MetaWorld 评估在连续空间中控制低级别、高频率行动的能力。我们在附录A.1中提供了每个领域的详细描述。
直接政策建模通过查询封闭源代码的GPT-4o模型进行,而间接政策建模则通过文本环境观察使用开源的Llama 3模型(Dubey et al., 2024),当环境观察由像素图像组成时使用PaliGemma模型(Beyer et al., 2024)。在附录A.11中,我们调查了包括Claude 3.5、Gemini Pro 1.5、Llama 3.2-V和Qwen 2.5(Qwen Team, 2024)在内的更大一组LLM。所有结果是基于10个种子的平均值,误差条表示标准误差。
通过奖励进行间接政策建模
我们首先呈现第2.3节中讨论的各种间接政策建模方法的比较。在这些实验中,LLM生成一个奖励函数,该函数将提供给RL代理进行优化,而不接触来自环境的任何奖励。在通过RL学习政策时,我们不进行任何超参数搜索,而是简单地借用每个领域的现有经验设置,如附录A.1所述。
在图1中,我们展示了在所有领域上的平均成功率(除了NetHack,性能(游戏内得分)被归一化为最高记录值)。结果显示,AI反馈是唯一在所有环境和模态中成功构建奖励的方法。在像MiniWob-Hard这样较简单的领域中,该领域由短时间和有限变化范围的情节组成,直接标量方法的表现几乎与AI反馈相当。然而,在更困难的开放任务(如NetHack)上,方法之间的差异更加明显。在所有方法中,基于嵌入的方法表现最低。最后,作为代码的奖励的有效性似乎高度依赖于可用于代码处理的符号特征的可用性。在附录A.5中,我们进一步考察了在何种假设下——例如对环境功能知识的访问——作为代码的奖励可以达到与AI反馈相当的性能。
直接与间接政策建模的比较
现在我们将直接政策建模方法LLM政策与表现最佳的间接建模方法AI反馈进行比较,报告在相同领域集中的表现。图2a中的结果显示,尽管使用了更复杂的提示策略和更强大的封闭源模型,LLM政策在大多数环境中的表现仍然不佳,除了MiniWob-Hard,其表现与AI反馈相当。鉴于奖励建模基线继续对RL政策进行微调,我们可能会想知道,在相似的计算和环境样本量下,LLM政策能够通过微调LLM达到什么样的表现。在附录A.13中,我们也研究了这个问题,揭示了奖励建模的效率显著更高。在附录A.12的图15中,我们还调查了AI反馈方法获得的奖励是否可以作为上下文提供给LLM政策,以改善直接建模性能。结果表明,这些额外信息并没有显著改变性能。
从这些结果中出现的一个问题是:是什么因素导致直接和间接政策模型之间的显著性能差异?一个可能的解释是,当LLM在未知环境中直接被询问行动时,可能会难以理解其动态(例如,转移函数和行动空间)。为了测试这个假设,我们进行以下实验。我们提示LLM在1)给定当前观察和行动的情况下选择一对候选下一个观察(探测知识 p ( o t + 1 ∣ a t , o ≤ t ) p(o_t+1|a_t, o_{\le t}) p(ot+1∣at,o≤t)),或2)给定下一个观察和当前观察的情况下选择一对候选行动(探测知识 p ( a t ∣ o t + 1 , o ≤ t ) p(a_t|o_{t+1}, o_{\le t}) p(at∣ot+1,o≤t))。在每种情况下,这对候选包含真实值和随机样本。在这个实验中,50%的准确率对应于随机猜测。
图2b中呈现的结果表明,LLM在这两个任务上的表现相对较差,表明对行动空间和环境动态的理解有限。这可能解释了LLM政策方法在MiniWob-Hard、NetHack和MetaWorld上的有限表现,而Wordle的结果表明还有其他因素在起作用。
4 AI反馈在强化学习中的分析
到目前为止,我们的结果表明,在没有额外微调的情况下,通过AI反馈构建奖励函数的间接政策建模方法是在我们研究的各种环境和模态中最有效的。在这一部分,我们将探讨这种方法所塑造的奖励如何帮助强化学习(RL)代理解决核心决策挑战,例如信用分配和探索。通过这一分析,我们还强调了奖励错误指定可能如何意外发生并严重损害性能的方式。
4.1 信用分配
抛开直接政策方法的表现,我们现在关注AI反馈的奖励建模为何表现良好。基于AI反馈的奖励依赖于用于捕获偏好的提示。在迄今进行的实验中,这些提示旨在通过强调有助于任务进展的状态来引导偏好(见附录A.2中的提示)。此外,我们的方法论的一个关键方面是向LLM呈现随机采样的轨迹中的观察。这使得能够查询环境中任何观察的偏好,而不是将重点限于最终状态——这种区分也被称为基于过程和基于结果的奖励模型(Uesato et al., 2023;Lightman et al., 2023)。在这种选择下,奖励模型的结果特征是什么?
定性实验:在图3中,我们展示了AI反馈基础的奖励模型在简单网格世界环境中的每个时间步的输出。该任务包括一个代理、一个钥匙、一扇门和一个目标(Chevalier-Boisvert et al., 2023)。我们注意到,这个奖励模型自然捕捉到捡起钥匙和打开锁住的门是朝向目标的重要步骤。通过在轨迹中传播信用,LLM有效地缩短了RL算法必须通过时间差学习分配信用的时间范围(Sutton & Barto, 2018)。这在图3中表现出来,学习通过AI反馈的代理在所需时间步的很小一部分内达到了高成功率,而类似的代理从环境反馈(在这种情况下是达到目标的稀疏奖励+1)中学习。由于LLM反馈产生的稠密奖励可以被视为奖励再分配的一种形式(Arjona-Medina et al., 2018),这是改善信用分配的一个既定方法。
定量实验:在图4中,我们展示了基于AI反馈的奖励模型与RL代理的价值函数之间在不同政策最优性水平下的相关性。我们观察到,AI反馈生成的奖励函数与在训练过程后期获得的价值函数之间的相关性更强,而与早期阶段的相关性较低。此外,这种相关性高于观察到的环境奖励。在Wordle游戏中,我们通过代码生成了近似最优的政策,并使用蒙特卡洛估计其价值函数。然后,我们将其与LLM生成的奖励函数进行比较,发现几乎完美的相关性。这些发现表明,从AI反馈中获得的奖励模型本质上编码了高质量价值函数的各个方面,当作为奖励用于RL代理时,可以显著简化信用分配过程。在附录A.7中,我们提供了从启发式引导强化学习的角度的更多见解(Cheng et al., 2021)。
4.2 探索
在上一部分中,我们研究了我们的标准提示策略如何缓解下游RL任务中的信用分配问题。这个结果源于我们请求LLM的特定偏好,即促进任务进展。然而,为了应对不同的RL目标,特别是探索的目标,我们可能需要引出替代偏好。此前,Klissarov等(2024)利用AI反馈为在NetHack的开放环境中运行的代理设计了有效的奖励函数。然而,在将该奖励应用于RL代理之前,作者实施了以下变换:
r ( o t ) ∝ r A I F ( o t ) N ( o t ) β r(o_t) \propto \frac{r_{AIF}(o_t)}{N(o_t)^\beta} r(ot)∝N(ot)βrAIF(ot)
其中, r A I F r_{AIF} rAIF是从AI反馈获得的奖励模型, N ( o t ) N(o_t) N(ot)表示在一个情节中观察到特定观察 o t o_t ot 的次数, β \beta β是设置为3的正实值系数。计数项的添加旨在鼓励探索(Henaff et al., 2022),这是NetHack中的一个关键困难。然而,在许多实际设置中实例化这样的计数函数证明是困难的(Bellemare et al., 2016)。考虑到自然语言的灵活性,我们能否减轻对这样的项的需求,并将探索的概念集成到提示本身中?
在图5中,我们证明这是确实可能的,通过直接修改用于偏好引导的提示,导致与基于计数的探索相当的性能。具体而言,当查询LLM的偏好时,我们提供了一对观察序列(而不是单个观察),这提供了关键上下文。提示也被修改以引导LLM避免低熵序列,即重复的序列(见附录A.2)。
我们的发现揭示了两种潜在的失败模式:偏好引导方法的离线特性和马尔可夫奖励模型的假设。先前的研究表明,在线偏好查询在对齐LLM时可以优于离线方法(Bai et al., 2022;Touvron et al., 2023)。在我们的实验中,离线引导导致性能崩溃,这可能是由于在线学习期间频繁的RL政策更新。此外,假设马尔可夫奖励模型——即当前观察完全决定奖励——也可能导致同样的糟糕表现,因为复杂任务通常需要超出即时观察的历史上下文(见附录A.8的完整分析)。
5 超越零-shot奖励建模
到目前为止,我们探讨了LLM在没有任何微调的情况下直接和间接建模政策的能力。然而,在许多情况下,LLM中编码的先前知识可能没有包含成功完成此任务所需的信息。在这种情况下,微调成为将任务特定知识纳入模型的有效方法。
我们考虑MetaWorld中的扫入任务,其中AI反馈奖励仅导致15%的成功率。当测量PaliGemma模型在描述该任务的像素观察的标题时,其困惑度得分为16.03。这两个结果都表明理解较差,并且需要对模型进行适应。
因此,我们对PaliGemma进行了微调,使用GPT-4o注释的图像-标题对,并训练模型预测给定图像的标题。图6a显示,在仅进行几次微调的epochs后,以及大约100个图像-标题对后,下游RL性能显著提高。此外,图6a还显示,这一过程仅在标准多模态推理基准(如POPE(Li et al., 2023b)、GQA(Hudson & Manning, 2019)、AI2D(Kembhavi et al., 2016)和MMMU(Yue et al., 2024))上略微降低了LLM的性能。令人惊讶的是,随着RL特定微调epochs数量的增加,AI2D基准的性能有所提升。
我们将这些发现与图6b进行对比,其中我们在同一MetaWorld任务上使用专家数据对PaliGemma进行了行为克隆微调。类似于RT-2(Brohan et al., 2023),我们用残差VQ-VAE代码本(Szot et al., 2024)覆盖了最不频繁的标记。在这种情况下,RL性能的任何显著提高都是以灾难性遗忘所有先前知识为代价的。
这些结果暗示了一个重要的权衡:如果保留先前语言推理知识很重要,那么针对AI反馈的微调提供了一种可行的方法。然而,如果最大化下游RL性能是唯一目标,那么直接针对行动选择进行微调可能更有效。
7 讨论
在本文中,我们探索了利用大型语言模型(LLMs)解决强化学习(RL)任务的两种不同方法:1)直接通过建模政策,2)间接通过建模奖励以在政策学习算法中利用。我们的结果表明,在没有任务特定微调的情况下,当前的LLM在直接生成行动时仅显示出有限的决策能力。然而,尽管存在这一限制,LLM仍然能够作为零-shot奖励建模者。特别是在通过Bradley-Terry模型引导偏好以定义奖励时,LLM在广泛的领域中展现出强大的表现,面对各种挑战。
在LLM的先前知识不足以获得有用的奖励函数的情况下,我们还研究了使用任务特定数据进行微调以弥补这一差距。值得注意的是,微调以增强奖励建模能力有助于缓解灾难性遗忘,这是保留LLM通用能力的重要考虑。保持这些能力对于广泛适用于序列决策任务,包括超出分布的任务,以及支持与用户持续的自然语言交互至关重要。
本文中展示的奖励建模能力为解决RL中的挑战提供了潜在解决方案。首先,LLM衍生的奖励模型减轻了人类设计奖励函数的需求,这些函数往往复杂且开发成本高。其次,我们的实证分析揭示,基于AI反馈的奖励产生稠密的函数,与高质量的价值函数正相关。这种奖励函数可以通过在轨迹中的不同步骤之间重新分配奖励,显著降低分配信用的难度。最后,从LLM中提取知识以构建奖励模型为在缺乏模拟器或符号特征的环境中应用RL开辟了新的可能性——例如,在与人类互动的具身AI代理中。
此外,在处理现实场景时,我们可能会关注模型对环境反应的速度。直接政策建模意味着LLM在环境中执行,这可能限制其被查询的频率。例如,Black等(2024)的报告强调了使用特殊技术(如行动分块)以实现50 Hz控制频率的必要性。相比之下,间接政策建模可以将LLM的知识提炼到一个更小的神经网络中,这将大大加快查询速度。
存在一些显著的局限性和注意事项。通过使用LLM反馈设计奖励函数,我们可能会获得矛盾和不一致的偏好,仅仅是由于LLM对当前任务的理解不完美。事实上,我们认为这是PaliGemma模型在MetaWorld上产生一些不成功RL政策的主要原因,如图6所示。如果某个特定任务要求检测微妙的、渐进的进展,LLM可能会错过关键的里程碑。此外,通过自然语言与LLM交互需要实验各种提示技术和规格。然而,这种灵活性也使得塑造奖励函数以纳入有价值的策略成为可能(Knox et al., 2013),例如促进探索,这可以进一步增强RL代理的表现。