目录
第 5 章
奖励
图 5.1:奖励系统示例分类
奖励帮助智能体区分有益和有害的行为,塑造其学习过程并影响其决策。本章首先介绍人体内常见的奖励物质以及相应的奖励通路。然后,定义了智能体下的奖励范式以及涉及的不同方法。在讨论部分,描述了与其他模块的影响关系,总结了现有方法,然后讨论了未来需要解决的问题和优化方向。
表 5.1:人类常见奖励通路的比较。
奖励通路 | 神经递质机制 | 描述 |
中脑边缘通路 [406] | 多巴胺 | 腹侧被盖区 (VTA) 的多巴胺能神经元将其投射延伸至伏隔核,并在那里释放多巴胺以调节与奖励相关的信号传导。多巴胺扩散穿过突触间隙并与多巴胺受体结合——主要是 D1 类(通过 Gs 蛋白兴奋,增加 cAMP)和 D2 类(通过 Gi 蛋白抑制,减少 cAMP)——从而调节奖励、动机和 |
中脑皮质通路 [407] | 多巴胺 | 强化。从 VTA 发出的多巴胺能投射到达前额叶皮层 (PFC)。在这里,多巴胺与其受体结合,影响决策、工作记忆和情绪 |
黑质纹状体通路 [407] | 多巴胺 | 调节等认知功能,所有这些都有助于评估和预期奖励。多巴胺在纹状体中对 D1 和 D2 受体的作用有助于塑造运动习惯和与奖励相关的行为。 |
蓝斑核 [408] | 去甲肾上腺素 | 蓝斑核中的神经元释放去甲肾上腺素到大脑中广泛分布的目标区域。在突触处,去甲肾上腺素与肾上腺素能受体(α 和 β 亚型)结合,调节神经元兴奋性、觉醒、注意力和应激反应。这些调节作用 |
谷氨酸能投射 [409] | 谷氨酸 | 可以间接影响奖励处理和决策回路。释放到突触间隙后,谷氨酸与位于突触后神经元上的离子型受体(如 AMPA 和 NMDA 受体)和代谢型受体结合,从而启动兴奋性信号传导。这种结合产生兴奋性突触后电位,并且 |
GABA 能调节 [410] | γ-氨基丁酸 (GABA) | 对于奖励回路内的突触可塑性和学习至关重要。GABA 是主要的抑制性神经递质。在突触处,GABA 与 GABAA 受体和 GABAB 受体结合。这种结合导致突触后细胞超极化,从而提供抑制性调节,平衡奖励网络中的兴奋性信号。 |
5.1 人类奖励通路
大脑的奖励系统大致分为两个主要的解剖通路。第一个是内侧前脑束,起源于基底前脑,穿过中脑投射,最终终止于脑干区域。第二个是背侧间脑传导系统,起源于内侧前脑束的喙部,穿过缰核,并投射到中脑结构 [407]。人脑中的反馈机制和物质是复杂的,涉及多种神经递质、激素和其他分子,它们通过神经递质系统和奖励回路等反馈机制来调节大脑功能、情绪、认知和行为。反馈机制可以是正向的(例如奖励系统中的反馈)或负向的(例如抑制过度的神经活动)。众所周知的反馈物质 [411] 包括多巴胺、神经肽、内啡肽、谷氨酸等。
多巴胺是一种在大脑中起重要作用的信号分子,影响我们的情绪、动机、运动等方面 [412]。这种神经递质对于基于奖励的学习至关重要,但这种功能在许多精神疾病中可能会被破坏,例如情绪障碍和成瘾。中脑边缘通路 [406] 是一个关键的多巴胺能系统,起源于腹侧被盖区 (VTA) 中产生多巴胺的神经元,并投射到多个边缘和皮质区域,包括纹状体、前额叶皮层、杏仁核和海马体。该通路在奖励处理、动机和强化学习中起着核心作用,并被广泛认为是 大脑奖励系统的核心组成部分。神经肽是神经系统中另一类重要的信号分子,参与从情绪调节到代谢控制的多种功能,并且是慢效信号分子。与仅限于突触的神经递质不同,神经肽信号可以影响更广泛的神经网络,并提供更广泛的生理调节。大脑中不同神经肽受体的分布存在显著的皮质-皮质下梯度。此外,神经肽信号已被证明能显著增强大脑区域的结构-功能耦合,并表现出从感觉-认知到奖励-生理功能的专门化梯度 [413]。表 5 列出了人脑中常见的奖励通路、它们传递的神经递质以及相应的作用机制,描述了人脑奖励系统的基本框架。
5.2 从人类奖励到智能体奖励
在研究了人类奖励通路的基础之后,我们现在转向人工智能体如何通过奖励信号学习和优化行为。虽然生物系统依赖于复杂的神经化学和心理反馈回路,但人工智能体使用形式化的奖励函数来指导学习和决策。尽管受到人类认知的启发,智能体的奖励机制在结构和功能上是不同的。理解这些系统之间的类比和差异对于将人工智能行为与人类偏好对齐至关重要。
在人类中,奖励深深嵌入在情感、社会和生理背景的丰富网络中。它们通过进化调整的机制出现,涉及像多巴胺这样的神经递质,并由经验、文化和个体心理塑造。相比之下,人工智能体依赖于数学上定义的奖励函数,这些函数是外部指定且精确量化的。这些函数为行动或状态分配标量或概率反馈,为强化学习 [3, 414] 等优化算法提供信号。
一个关键的区别在于智能体奖励的可编程性和可塑性。与受生物结构和进化惯性约束的人类奖励系统不同,智能体奖励函数是完全可定制的,并且可以根据任务需求快速重新定义或调整。这种灵活性使得有针对性的学习成为可能,但也带来了设计挑战——指定一个能够准确捕捉细微人类价值观的奖励函数是出了名的困难。
另一个重要的差异在于可解释性和泛化性。人类奖励通常是隐含的且依赖于上下文,而智能体奖励则倾向于显式且特定于任务。智能体缺乏情感直觉和本能驱动;它们的学习完全取决于奖励信号的形式和保真度。虽然像基于人类反馈的强化学习 (RLHF) 这样的框架试图通过使用偏好数据来塑造智能体行为 [12] 来弥合这一差距,但这些方法仍然难以捕捉人类目标的全部复杂性,特别是当偏好是不及物的、循环的或对上下文敏感的时 [321]。
此外,试图借鉴人类奖励机制——例如模拟内在动机或社会认可——面临局限性,因为人工智能体缺乏意识、具身性和主观体验。因此,虽然人类奖励系统提供了宝贵的灵感,但智能体奖励函数的设计必须解决根本不同的约束,包括对错误指定、对抗性操纵以及与长期人类利益不一致的鲁棒性。
下一节将更深入地探讨智能体奖励模型,重点关注其设计原则、演变,以及这些模型如何选择性地结合受人类启发的见解,以在形式化系统中优化人工智能行为。
5.3 人工智能奖励范式
奖励也存在于智能体中,尤其是在强化学习场景中。奖励是用于指导智能体如何在环境中行动的核心信号。它们表达了对智能体行为的反馈,并用于评估在特定状态下某个行动的质量,从而影响后续行动的决策。通过不断的试错和调整,智能体学会选择能够在不同状态下获得高奖励的行为策略。
5.3.1 定义与概述
在强化学习中,奖励模型规定了如何根据智能体在其环境中执行的动作向其提供反馈。该模型通过量化给定状态下动作的可取性,在指导智能体行为方面发挥着至关重要的作用,从而影响其决策。
形式化定义。智能体与环境的交互可以在马尔可夫决策过程 (MDP) [415] 的形式化框架内进行描述,表示为:
M = ( S , A , P , r , γ ) , \boldsymbol{\mathcal{M}}=(\boldsymbol{\mathcal{S}},\boldsymbol{\mathcal{A}},\boldsymbol{P},\boldsymbol{r},\gamma), M=(S,A,P,r,γ),
其中:
•
S
\mathcal{S}
S 表示状态空间,包含环境中所有可能的状态。
•
A
\mathcal{A}
A 表示动作空间,包含智能体在任何给定状态下可用的所有动作。
•
P
(
s
′
∣
s
,
a
)
P(s^{\prime}|s,a)
P(s′∣s,a) 定义了状态转移概率。它表示在智能体在状态
s
s
s 采取动作
a
a
a 后转移到状态
s
′
s^{\prime}
s′ 的可能性。
•
r
(
s
,
a
)
r(s,a)
r(s,a) 指定了奖励函数,它分配智能体在状态
s
s
s 执行动作
a
a
a 时收到的即时标量奖励。
•
γ
∈
[
0
,
1
]
\gamma\in[0,1]
γ∈[0,1] 是折扣因子,通过加权未来奖励对总回报的贡献来控制智能体对即时奖励与未来奖励的偏好。
奖励函数 r ( s , a ) r(s,a) r(s,a) 是智能体奖励模型表述中的一个基本组成部分。它在数学上表示为:
r ( s , a ) : S × A → R r(s,a):S\times\mathcal{A}\to\mathbb{R} r(s,a):S×A→R
该函数根据智能体的当前状态 s s s 和其选择的动作 a a a 返回一个标量奖励。标量值 r ( s , a ) r(s,a) r(s,a) 是一个反馈信号,指示在给定状态下所选动作的即时收益(或成本)。这个奖励信号指导智能体的学习过程,因为它有助于评估在特定上下文中采取的动作的质量。
智能体奖励模型的目标。智能体的首要目标是最大化其随时间推移的总累积奖励。这通常通过选择能够产生更高长期奖励的动作来实现,这些奖励以时间步 t t t 的回报 G t G_{t} Gt 的形式捕获,定义为未来折扣奖励的总和:
G t = ∑ k = 0 ∞ γ k r t + k , G_{t}=\sum_{k=0}^{\infty}\gamma^{k}r_{t+k}, Gt=k=0∑∞γkrt+k,
其中 r t + k r_{t+k} rt+k 表示在时间步 t + k t+k t+k 收到的奖励, γ k \gamma^{k} γk 是应用于在时间步 t + k t+k t+k 收到的奖励的折扣因子。智能体旨在通过最大化随时间推移的预期回报来优化其策略。
在更高的层面上,奖励模型可以根据反馈信号的来源分为三类:i) 外部奖励 (extrinsic reward),ii) 内部奖励 (intrinsic reward),iii) 混合奖励 (hybrid reward) 和 iv) 分层模型 (hierarchical model)。这些类别中的每一个都可以进一步细分为更小的子类。图 5.2 说明了不同类型的奖励。接下来,我们将更详细地探讨这些不同类型的奖励,概述每种类型的独特特征和应用。
图 5.2:不同类型奖励的说明。
5.3.2 外部奖励
外部奖励是外部定义的信号,用于引导智能体的行为朝向特定目标。在人工智能学习系统,特别是强化学习中,这些信号作为成功的代理,通过可测量的结果来塑造策略。然而,这些奖励的结构和传递方式显著影响学习动态,根据反馈的分布方式呈现不同的权衡。
密集奖励 (Dense Reward)。密集奖励信号提供高频反馈,通常在每一步或每次行动之后。这种频繁的指导通过允许智能体立即将行动与结果关联起来,从而加速学习。然而,密集的反馈有时可能会激励短视行为或过度拟合到容易测量的代理指标,而不是更深层次的对齐。
例如,InstructGPT [43] 使用人类对模型输出的排名,在整个微调过程中提供连续的偏好信号,从而实现有效的行为塑造。类似地,Cringe Loss [416] 及其扩展 [374] 将成对的人类偏好转化为密集的训练目标,在每次比较时提供即时信号。直接奖励优化 (DRO) [367] 通过完全避免成对比较进一步简化了这种范式,将每个响应与一个标量分数相关联——使得奖励信号更具可扩展性和成本效益。这些方法体现了密集反馈如何促进细粒度优化,但必须仔细设计以避免表面对齐。
稀疏奖励 (Sparse Reward)。稀疏奖励不频繁,通常仅由主要里程碑或任务完成触发。虽然它们通常反映更有意义或更全面的成功标准,但它们的延迟性会使信用分配更加困难,尤其是在复杂环境中。
PAFT [376] 通过解耦监督学习和偏好对齐来例证了这一挑战,反馈仅在选定的决策点应用。这种稀疏性反映了更全局的成功概念,但增加了优化的负担。类似地,SimPO [377] 使用基于对数概率的隐式奖励,而没有密集的比较。稀疏性简化了训练流程,但可能限制对细微偏好变化的响应能力。因此,稀疏奖励系统往往更鲁棒,但需要更强的建模假设或更具策略性的探索。
延迟奖励 (Delayed Reward)。延迟奖励将反馈推迟到一系列行动之后,要求智能体推理长期后果。这种设置对于中间步骤可能具有误导性或只有在回顾时才有意义的任务至关重要。挑战在于将结果归因于早期的决策,这使学习复杂化,但鼓励规划和抽象。
对比偏好优化 (CPO) [384] 通过比较翻译集而不是孤立地评估每一个来训练模型。奖励信号仅在生成多个候选之后出现,从而在迭代中强化模式。基于人类反馈的纳什学习 [385] 类似地延迟反馈,直到模型通过竞争性比较识别出稳定策略。这些方法利用延迟奖励来超越表面层级的优化,以较慢的收敛速度和更复杂的训练动态为代价,与长期目标更加一致。
自适应奖励 (Adaptive Reward)。自适应奖励根据智能体的行为或学习进度动态演变。通过调整奖励函数,例如增加任务难度或改变奖励目标,这种方法支持持续改进,尤其是在非平稳或模糊的环境中。然而,它在奖励设计和评估中引入了额外的复杂性。
自博弈偏好优化 (SPO) [386] 根据自博弈结果调整奖励,使用社会选择理论来聚合偏好并指导学习。这种方法允许系统通过发展内部标准来完善自身。f-DPO [373] 在此基础上引入了散度约束,在训练期间调整奖励格局。通过动态调整对齐-多样性的权衡,这些方法能够在不确定性下实现鲁棒的偏好建模,尽管它们需要仔细校准以避免不稳定或意外偏差。
5.3.3 内部奖励
内部奖励作为内部产生的信号,激励智能体探索、学习和改进,独立于外部特定任务的结果。这些奖励通常被结构化以促进泛化、适应性和自我导向的技能获取——这些品质对于在复杂或稀疏奖励环境中的长期性能至关重要。不同的内部奖励范式侧重于在智能体内部培养不同的行为倾向。
好奇心驱动奖励 (Curiosity-Driven Reward)。这种奖励鼓励智能体通过寻求新颖或令人惊讶的经验来减少不确定性。关键概念是激励智能体探索预测误差显著的新状态。这种范式通过在外部指导有限时促进信息获取,在稀疏奖励设置中表现出色。例如,Pathak 等人 [387] 利用逆向动力学模型来预测动作的结果,创建了一个奖励新颖性的反馈回路。Plan2Explore [389] 通过结合前向规划来主动瞄准高认知不确定性区域,进一步扩展了这一点,从而能够更快地适应未见过的环境。虽然在发现方面有效,但如果没有保障措施,好奇心驱动的方法可能对噪声或欺骗性新颖性敏感。
多样性奖励 (Diversity Reward)。多样性奖励将重点从新颖性转向行为异质性,鼓励智能体探索广泛的策略,而不是过早地收敛到次优解。这种方法在多智能体或多模态设置中特别有用,其中策略多样性可以增强鲁棒性和集体表现。LIIR [390] 通过为不同智能体分配个性化的内部信号来例证这一点,驱动它们扮演不同的角色,同时保持共同的目标。多样性驱动的探索促进了更广泛的策略覆盖,但可能需要仔细平衡以避免破坏协调或目标追求。
基于能力的奖励 (Competence-Based Reward)。基于能力的奖励旨在通过奖励智能体任务熟练程度的提高来促进学习进展。这种奖励随着智能体能力的增强而动态调整,从而创建了一个支持持续技能获取的自课程。Skew-Fit [392] 通过基于熵的目标采样来促进这一点,鼓励智能体达到多样化的状态,同时保持挑战性。CURIOUS [391] 通过选择能够最大化长期学习进展的目标,进一步自动化了课程生成。基于能力的方法非常适合开放式环境,尽管它们通常需要对进展和目标难度进行复杂的估计。
探索奖励 (Exploration Reward)。探索奖励直接激励智能体接触未充分探索的状态或动作,强调环境交互的广度而非深度。与关注不可预测性的好奇心不同,探索奖励通常针对相对于智能体访问历史的覆盖率或新颖性。RND [394] 通过奖励随机初始化网络的预测误差来例证这一点,推动智能体朝向不熟悉的状态。这种方法有助于防止过早收敛并鼓励鲁棒性,但如果未与有意义的学习目标相结合,可能会缺乏重点。
信息增益奖励 (Information Gain Reward)。信息增益奖励将探索形式化为减少不确定性的过程,引导智能体采取能够产生最高预期学习量的行动。这种奖励基于信息论,在基于模型或推理密集型任务中尤其强大。CoT-Info [397] 通过量化每个推理步骤的知识增益,将其应用于语言模型,优化子任务分解。VIME [398] 类似地采用贝叶斯推断来奖励关于环境动态的信念更新。通过明确地针对信息价值,这些方法提供了有原则的探索策略,尽管它们通常需要高计算成本并需要精确的不确定性建模。
5.3.4 混合奖励
混合奖励框架整合了多种反馈来源,最常见的是内部奖励和外部奖励,以实现更平衡和自适应的学习。通过将内部奖励的探索驱动力与外部奖励的目标导向结构相结合,这些系统旨在提高样本效率和泛化能力。这种范式在复杂环境或开放式任务中尤其有益,因为单纯依赖任一类型的反馈可能不足。
混合奖励的一个核心优势是它们能够动态地解决探索-利用权衡。例如,Xiong 等人 [403] 在 RLHF 的背景下将内部探索与外部人类反馈相结合。他们使用反向 KL 正则化的上下文老虎机框架,促进策略性探索,同时使智能体的行为与人类偏好对齐。该方法通过迭代 DPO 算法和多步拒绝采样来整合内部和外部奖励,在不牺牲效率的情况下优化探索和对齐。
5.3.5 分层奖励
分层奖励架构将复杂目标分解为分层的子目标,每个子目标都与不同的奖励信号相关联。这种结构反映了许多现实世界任务的分层组织,允许智能体将短期决策与长期规划相协调。通过为即时行动分配较低级别的奖励,为抽象目标分配较高级别的奖励,智能体可以学习能够更有效地扩展到复杂环境的组合行为。
在语言建模中,词元级直接偏好优化 (TDPO) [405] 通过从偏好建模中导出的细粒度词元级奖励来对齐大语言模型,阐释了这一原则。使用前向 KL 散度和 Bradley-Terry 模型,TDPO 同时优化局部选择和全局连贯性,提高了与细微人类偏好的对齐度。这里的层级奖励过程不仅仅是一种结构设计,更是一种功能设计:以协调的方式强化微观决策和宏观结果。
更普遍地,分层奖励可以作为课程学习的脚手架,智能体在处理总体目标之前,逐步从更简单的子任务中学习。在大语言模型智能体中,这可能意味着为工具使用、推理链或交互流等子组件构建奖励结构,每个组件都有助于更广泛的任务成功。
5.4 总结与讨论
5.4.1 与其他模块的交互
在智能系统中,奖励信号不仅作为结果驱动的反馈,而且作为核心调节器,与感知、情感和记忆等核心认知模块交互。在大语言模型智能体的背景下,这些交互变得尤为突出,因为像注意力、生成风格和检索记忆等模块可以通过奖励塑造、偏好建模或微调目标直接受到影响。
感知 (Perception)。在大语言模型智能体中,感知通常通过注意力机制实现,这些机制优先处理某些词元、输入或模态。奖励信号可以在训练期间隐式地调节这些注意力权重,强化与积极结果相关的模式。例如,在强化微调期间,奖励模型可能会提升特定语言特征的权重——例如信息量、事实性或礼貌性——导致模型更多地关注与这些特质对齐的词元。这与生物感知如何通过奖励关联的注意力调节来优先处理显著刺激相似 [417]。随着时间的推移,智能体将感知策略内化:不仅仅是“说了什么”,而是在特定任务背景下“什么值得关注”。
情感 (Emotion)。尽管大语言模型不具备生物意义上的情感,但奖励信号可以引导类情感表达的出现并调节对话风格。在人类对齐设置中,模型通常因生成移情、礼貌或合作的响应而获得奖励——导致模拟情感敏感性的风格模式。积极反馈可能会强化友好或支持性的语气,而消极反馈则抑制轻蔑或不连贯的行为。这个过程反映了人类中情感驱动的行为调节 [418],并允许智能体根据用户期望、情感背景或应用领域调整其交互风格。在多轮对话设置中,奖励调节的风格持久性可以产生连贯的角色或对话情绪。
记忆 (Memory)。大语言模型智能体中的记忆跨越短期上下文(例如,聊天历史)和长期记忆模块,如检索增强生成 (RAG) 或情景记忆缓冲区。奖励信号塑造了知识如何被编码、重用或丢弃。例如,在带有偏好标签的数据上进行微调可以强化某些推理路径或事实模式,有效地将它们整合到模型的内部知识表示中。此外,像经验回放或自我反思这样的机制——智能体使用学习到的奖励估计器评估过去的输出——能够实现选择性记忆强化,类似于生物系统中多巴胺驱动的记忆巩固 [419]。这使得大语言模型智能体能够从先前成功的策略中泛化,并避免重复代价高昂的错误。
总的来说,基于大语言模型的智能体中的奖励不是一个被动的标量信号,而是一个主动的行为塑造者。它调节注意力以提升显著特征,引导风格和情感表达以符合人类偏好,并构建记忆以优先处理有用的知识。随着智能体向着更大的自主性和交互性发展,理解这些跨模块的奖励交互对于构建不仅智能,而且可解释、可控且与人类价值观对齐的系统至关重要。
5.4.2 挑战与方向
尽管对各种奖励机制进行了广泛的研究,但仍然存在几个持续存在的挑战。一个基本问题是奖励稀疏性和延迟。在许多现实世界场景中,奖励信号通常不频繁且延迟,使得智能体难以准确地将信用归因于特定行动。这反过来又增加了探索的复杂性并减慢了学习过程。
另一个重大挑战是奖励利用(reward hacking)的可能性。智能体在追求最大化奖励的过程中,有时会利用奖励函数中意想不到的漏洞。这可能导致行为偏离预期的设计目标,尤其是在优化目标可能并不总是与真实任务需求一致的复杂环境中。
此外,奖励塑造(reward shaping)过程呈现出微妙的平衡。虽然塑造奖励可以通过引导智能体走向期望的行为来加速学习,但过度或设计不当的塑造可能导致局部最优,使智能体陷入次优行为。在某些情况下,它甚至可能改变原始任务的基本结构,使智能体难以泛化到其他场景。
许多现实世界问题本质上是多目标的,要求智能体平衡相互竞争的目标。在单一奖励函数框架下,找到这些目标之间的正确权衡仍然是一个悬而未决的问题。理想情况下,可以设计一种分层奖励机制来以结构化的、循序渐进的方式指导学习。然而,有效地构建此类机制仍然是一个挑战。
最后,奖励错误指定(reward misspecification)引入了进一步的不确定性并限制了泛化。通常,奖励函数不能完全捕捉真实的任务目标,导致智能体的学习目标与现实世界的成功之间存在偏差。此外,许多奖励函数是针对特定环境量身定制的,当条件变化或任务转移时无法泛化,这凸显了对更鲁棒的奖励模型的需求。
应对这些挑战需要新颖的方法。一个有前景的方向是从标准示例或基于结果的评估中推导出隐式奖励,这有助于缓解奖励稀疏性问题。此外,将复杂任务分解为分层结构并自下而上设计奖励,即使在多目标设置中也可以提供更系统的方法。此外,利用元学习和元强化学习等技术可以增强奖励模型的适应性,使智能体能够跨任务转移知识并在多样化的环境中有效执行。通过探索这些途径,我们可以朝着更可靠、更具可扩展性且更符合现实世界目标的奖励机制迈进。