AI Alignment: A Comprehensive Survey---从反馈中学习、反馈类型、偏好建模、策略学习

从反馈中学习

    从反馈中学习旨在通过反馈将人类的意图和价值观传达给人工智能系统。它是前向调整的起点。在本节中,我们重点介绍从反馈中学习的动态过程,并将其分为三个不同的元素:

  1. 人工智能系统:指需要调整的对象,例如对话系统、机器人系统等;
  2. 反馈:由顾问集提供,顾问集可能由人类、人工智能或人工智能协助的人类等组成。这可作为调整人工智能系统的信息;
  3. 代理:为模拟反馈而开发的系统,以促进更容易获得的算法学习,例如 RLHF 中的奖励模型。

    从这些元素中,我们确定了人工智能系统从反馈中学习的两种途径:

  1. 直接从反馈本身学习和
  2. 通过模拟反馈的代理进行间接学习。

    基于这个过程,我们从调整的角度转到§2.1 中的反馈类型,讨论向人工智能系统提供信息的各种形式及其优点。在接下来的章节中,我们将介绍一些近期的基本概念,为构建强大的 AI 系统提供见解(Christiano 等人,2017 年),以及使它们与人类意图保持一致(Touvron 等人,2023 年)。第 2.2 节中的偏好建模强调了它如何帮助创建代理,以帮助人类向复杂或难以评估的 AI 系统提供反馈。然后,我们将在第 2.3 节中探索策略学习,重点关注使用反馈构建有能力的 AI 系统的主要研究方向。我们的讨论自然过渡到第 2.4 节中的可扩展监督,在那里我们从更广泛的一致性角度反思学习过程和目标。

在这里插入图片描述
图 4:从反馈过程中学习的概述。图中描绘了三个核心组件:AI 系统——主要学习实体和算法目标;反馈——来自顾问的用于系统调整的信息;代理——用于直接学习的复杂反馈的代表性模型。出现了两种学习途径:基于直接反馈的学习和代理介导的学习(例如,从人类反馈中进行强化学习 (RLHF))。我们采用以人为本的视角,将 AI 系统视为黑匣子,并将呈现给 AI 系统的反馈形式分为四种类型:标签、奖励、演示和比较。基于偏好类别和偏好粒度等基本概念,我们引入了奖励模型,即代理的特定实例。在 AI 系统的背景下,我们讨论了四个不同的领域:强化学习 (RL)、模仿学习 (IL)、逆向强化学习 (IRL) 和基于偏好的强化学习 (PbRL) 作为背景。可扩展监督是一项研究主题,旨在确保 AI 系统(即使超越人类专业知识的系统)与人类意图保持一致,该主题通过引入四个有前景的方向进行探索:迭代提炼和放大 (IDA)、递归奖励建模 (RRM)、辩论和合作逆向强化学习 (CIRL)。此外,在 RLHF 的基础上,我们提出了 RLxF,包括从 AI 反馈进行的强化学习 (RLAIF) 和从人类和 AI 反馈进行的强化学习 (RLHAIF),作为 RLHF 的扩展和可扩展监督的基本框架。

反馈类型

    反馈是人工智能行为与人类意图之间的重要纽带(Stumpf et al, 2007, 2009; Fernandes et al, 2023),人工智能系统利用反馈来完善其目标,使其更贴近人类的价值观(Glaese et al, 2022; Meta, 2023),这主要包括两层含义:

  1. 在系统构建过程中,外部来源对人工智能系统的输出提供反馈,指导系统架构或内部信息的改进(Jordan and Mitchell, 2015; Zhou, 2021)。
  2. 系统部署后,将不断适应外部环境数据的变化,保持系统架构或基本策略不变,方法包括自适应控制(Åström and Wittenmark, 2008; Åström and Murray, 2021)和情境学习(Dong et al, 2022)等。为了准确、详细地讨论反馈类型,首先在对齐范围内定义反馈至关重要。

    反馈是给予人工智能系统的信息,以使其与人类的意图保持一致。考虑到对齐研究中多样化的人工智能系统,我们采用以人为本的方法。我们不深入研究复杂的系统机制,而是提出一种分类法,根据反馈对系统的直接呈现形式对其进行分类。本节介绍了通常用于对齐人工智能系统的四种反馈类型:标签、奖励、演示和比较。值得注意的是,除了显式反馈之外,还有一些方法可以通过无监督预训练(Parisi et al, 2022; Hu et al, 2023)和半监督学习(Xu et al, 2018b)利用嵌入在大量未标记数据中的信息,在增强模型能力方面显示出相当大的希望(Zhou et al, 2024)。

    标签标签反馈是指附加在原始数据项上的一个或多个有意义的信息标签(Hastie et al, 2009),它是最直接的形式,为人工智能系统提供明确的指导并描述预期的输出。这种反馈促使人工智能系统从专家顾问提供的输入输出配对中学习。例如,在监督学习中,人工智能模型使用带标记的输入输出对数据集进行训练,用 D = {(xi ,yi )} N i=1 表示。这里,yi 表示与输入数据 xi 相对应的真实标签,N 表示数据集中的样本总数。学习过程的本质是围绕最小化损失函数 L(例如 MSE)展开的,该函数基于模型参数 θ 来衡量模型预测 f (x;θ) 与地面真实标签 y 之间的差异。

    标签反馈的优势在于其明确性和解释简单性。然而,由于标签反馈无法完全封装这种选择的底层逻辑,在模型训练中使用这种反馈可能会导致目标变量偏差(Guerdan 等人,2023 年)。而且,在处理除单纯分类或回归之外的复杂任务时,它的实用性可能会降低 (Lake et al, 2017; Marcus, 2018)。例如,在优化算法 (Fawzi et al, 2022; Mankowitz et al, 2023)、视频游戏 (Baker et al, 2022) 和多模态生成 (OpenAI, 2023b) 等任务中,为每种可能的情况提供明确的指示不仅不切实际,而且仅依靠标签反馈来构建超越人类能力的系统也是不够的。

    奖励是对 AI 系统单个输出的绝对评估,表示为标量分数 (Silver et al, 2021) 或分数向量 (Wu et al, 2024),每个分数都独立于其他输出。基于奖励的反馈提供了对 AI 系统的量化评估,允许直接指导行为调整。这种反馈通常源自预先设计的基于规则的功能或程序。例如,在 OpenAI Gym 的 MuJoCo 模拟环境中(Brockman 等人,2016 年),任务是引导代理有效地向前移动。为此,可以将有效的基于规则的奖励函数制定为几个关键组件的组合:保持健康状态、鼓励向前移动、最大限度地减少控制力和调节接触强度。

    奖励反馈的优势在于,设计者无需描述最佳行为,同时允许 AI 系统探索以找到最佳策略(Kaelbling 等人,1996 年;Mnih 等人,2015 年;Silver 等人,2016 年、2017 年)。然而,制定完美的规则来确定评估 AI 系统输出的函数的分数(Everitt 等人,2017 年;Victoria 等人,2020 年;Pan 等人,2021 年)或直接为每个 AI 系统输出分配经过校准且一致的分数(Isbell 等人,2001 年;Thomaz 和 Breazeal,2008 年;Christiano 等人,2017 年;Casper 等人,2023b)对人类来说具有挑战性。这是由于任务本身的复杂性,考虑到每一个细微差别是不切实际的。此外,有缺陷或不完整的奖励功能可能导致与设计者意图不一致的危险行为,例如负面副作用和奖励黑客行为(Hadfield-Menell 等人,2017b;Skalse 等人,2022)。因此,仅从一致性的角度来看,基于奖励的反馈最重要的局限性可能是可能很难排除操纵(Shevlane 等人,2023),在这种情况下,这相当于奖励篡改和奖励游戏(Leike 等人,2018;Everitt 等人,2021;Skalse 等人,2022)。CIRL 在 §2.4.5 中提供了对这一特定问题的见解。

    演示演示反馈是专家顾问在实现特定目标时记录的行为数据(Hussein 等人,2017)。演示可以采用多种形式,包括视频(Shaw 等人࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值