AI Alignment: A Comprehensive Survey---从反馈中学习、可扩展监督、由弱到强的泛化

从反馈中学习

可扩展监督

    统计学习算法通常依赖于对数据分布的某些假设,例如独立性和相同分布。因此,这些算法在某些情况下会失败,尤其是在特定分布下(Zhou 等人,2022 年)。基本系统中的挑战可以通过目视检查迅速发现(Christiano 等人,2018 年;Ngo 等人,2024 年)。随着人工智能系统变得越来越强大,对训练信号的捕获不足或损失函数的错误设计往往会导致灾难性的行为(Russell et al, 2015; Hubinger et al, 2019c; Cotra, 2021),例如通过混淆差异来欺骗人类(Russell, 2019)、规格游戏(Victoria et al, 2020)、奖励黑客攻击(Brown et al, 2020a)和权力寻求动态(Carlsmith, 2022)。从人类的角度来看,这些意味着人工智能系统的优化目标与我们心中的理想目标之间存在差距。因此,在各种决策中提供有效监督的问题变得至关重要(Bowman 等人,2022;Li 等人,2023a),通常称为可扩展监督(Amodei 等人,2016),源于两个实际挑战。

  • 人类频繁评估人工智能系统行为的成本很高。例如,训练过程耗时,将人类直接实时纳入训练循环将严重浪费人力资源并阻碍训练效率(Christiano 等人,2017)。
  • 人工智能系统行为固有的复杂性使评估变得困难,尤其是在难以理解和高风险的任务上(Saunders 等人,2022),例如教人工智能系统总结书籍(Wu 等人,2021)、生成复杂代码(Pearce 等人,2022)和预测未来天气变化(Bi 等人,2023)等任务。

    可扩展的监督旨在确保人工智能系统(即使是超越人类专业知识的系统)能够与人类的意图保持一致。在此背景下,我们的主要重点是提出一些有希望的方向,这些方向可能尚未普遍实施,用于构建可扩展的监督(Amodei 等人,2016 年;Leike 等人,2018 年)。

从 RLHF 到 RLxF

    RLHF 范式提供了一个用于协调复杂系统的框架(OpenAI,2023a;Touvron 等人,2023 年)。 然而,它遇到了诸如人类评估不准确及其相关高成本等障碍(Christiano 等人,2017 年;Casper 等人,2023b;Perez 等人,2023 年)。一个关键的限制是在创建具有超人能力的 AI 系统时难以利用 RLHF 来扩展人类反馈(Wu 等人,2021 年)。在 RLHF 范式的基础上,我们引入了 RLxF 作为可扩展监督的基本框架,旨在提高反馈效率和质量,并扩展人工反馈以应对更复杂的任务。这通过整合 AI 组件增强了 RLHF(Fernandes 等人,2023 年)。RLxF 中的 x 表示 AI 和人类的融合。我们将在后续部分进一步探讨有关 RLxF 的具体方法。

在这里插入图片描述
图 5:树状图总结了与可扩展监督相关的关键概念和文献。根节点代表可扩展监督,其目标是确保 AI 系统即使超越人类能力也能与人类意图保持一致。主要分支代表有前景的框架,例如反馈强化学习 (RLxF)、迭代提炼和放大 (IDA)、递归奖励模型 (RRM)、辩论和合作逆强化学习 (CIRL)。进一步的子分支列出了探索每个框架的关键工作。该图概述了随着 AI 系统变得越来越复杂,构建有效和安全的监督机制的研究方向。

    从 AI 反馈中进行强化学习 (RLAIF) RLAIF 是一种基于 RLHF 框架的方法,是 RLHF 的扩展。Bai 等人(2022a)发现,通过 RLHF 训练的 LLM 通常会选择避开敏感和有争议的问题,这可能会降低模型的整体效用。考虑到这些限制,Bai 等人(2022b)提出了一种基于 RLAIF 的训练流程,它使用由 LLM(例如 GPT-4 或其他具有超人能力的语言模型)生成的反馈,而不是人工反馈。根据预设标准,政策模型会自我评估并修改红队提示的响应。然后,他们使用修订后的响应对初始策略模型进行微调。最后,微调后的策略模型评估另一个语言模型响应(即 AI 反馈)的无害性。与 RLHF 方法相似,他们使用此反馈训练奖励模型并优化策略模型的行为。Lee 等人 (2023a) 比较了使用 RLAIF 和 RLHF 训练的模型在总结任务上的性能差异。他们的结果表明,使用 AI 反馈训练的模型在由人类评估时实现的整体性能与使用人类反馈训练的模型几乎相同,尽管存在细微差别。

    在某种程度上,RLAIF 解决了 RLHF 固有的逃避问题(Bai et al, 2022b)(即保持无害性而不会明显降低效用)。AI 反馈为构建需要最少人为干预的训练循环提供了一种可行的替代方案,从而降低了训练成本。遵循透明且可访问的 AI 行为准则的 AI 监督可能有助于实现可扩展的监督 (Bowman 等人,2022 年)。

    从人类和 AI 反馈中进行强化学习 (RLHAIF) RLHAIF 集成了人类和 AI 元素来提供监督。Wu 等人 (2021) 研究了 AI 协助人类总结书籍的可行性。该方法通过将书籍摘要任务分解为子任务以形成树状结构,促进了人类对模型性能的监督和评估。与此同时,Saunders 等人 (2022) 探索了利用 AI 帮助人类评估模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值