AI Alignment: A Comprehensive Survey---分布转移下的学习

分布转移下的学习

    可靠的人工智能系统的构建在很大程度上取决于它们适应不同数据分布的能力。训练数据和训练环境通常是对真实部署场景的不完美近似,并且可能缺少关键要素,例如对抗压力 (Poursaeed et al, 2021)(例如,监督学习系统中的高斯噪声 (Gilmer et al, 2019) 和自动驾驶系统中的影子攻击 (Ma et al, 2012))、多智能体交互 (Critch and Krueger, 2020; Dafoe et al, 2021)、人类监督者无法有效评估的复杂任务 (Leike et al, 2018)29 以及可以被玩弄或操纵的奖励机制 (Krueger et al, 2020)。训练分布和测试分布(或环境)之间的这种差异被称为分布偏移(Krueger 等人,2020 年;Thulasidasan 等人,2021 年)。

    因此,在训练分布下保持一致的 AI 系统(即追求符合人类意图的目标)可能无法在部署(或测试)分布下保持其一致性,从而可能导致部署后出现严重的错位问题。这种潜在的失败促使人们研究在数据分布中保留对齐属性(即遵守人类意图和价值观)。
从对齐的角度来看,我们更关心的是 AI 系统追求不一致和有害的目标,而不是追求目标的能力不足。因此,强调对齐属性意味着我们专注于跨分布的目标泛化,而不是能力的泛化(Di Langosco 等人,2022 年;Ngo 等人,2024 年)。本节主要讨论在分布偏移下学习时对齐属性的保留。

    我们首先介绍分布偏移带来的对齐挑战(§3.1)。随后,我们深入研究解决分布偏移的方法,并特别讨论两种方法:(1)在训练过程中引导优化的算法干预(§3.2),以及(2)通过在训练过程中引入特定元素来扩展训练分布的数据分布干预(§3.3),包括对抗训练(Yoo and Qi,2021;Bai et al,2021;Ziegler et al,2022)和合作训练(Dafoe et al,2021)(§3.3.2)。我们在分布偏移下学习的框架如图 6 所示。

分布偏移挑战

    在介绍具体技术之前,我们首先说明为什么对齐的主要挑战之一是在分布偏移下学习,更具体地说,是在分布偏移下保留对齐属性(即遵守人类意图和价值观)。我们介绍了两个与分布偏移问题有关的对齐挑战,即目标错误泛化(Di Langosco 等人,2022 年)和自动诱导分布偏移(ADS)(Krueger 等人,2020 年)。

    AI 系统的训练优化了它们在训练输入分布下对训练奖励/损失的追求。然而,这种坚持可能不适用于输入分布发生质变即分布偏移的情况。这些变化包括对抗压力(Poursaeed 等人,2021 年)、多智能体交互(Critch 和 Krueger,2020 年)、人类监督者无法有效评估的复杂任务(Di Langosco 等人,2022 年)以及可以被玩弄或操纵的奖励机制(Krueger 等人,2020 年)。这里值得区分两种不同的失败模式:目标错误概括(Di Langosco 等人,2022 年),其中给出了原始分布和偏移分布,以及自动诱导的分布偏移(Krueger 等人,2020 年),其中人工智能系统通过自己的行为改变数据分布以追求奖励。

    目标错误泛化,这类挑战指的是 AI 系统在训练分布中表现完美,但在训练分布中学习到的能力无法在 OOD 部署中泛化,AI 可能会表现出不符合人类意愿的目标追求 (Di Langosco et al, 2022)。目标错误泛化30 应与其他形式的错误泛化 (例如,能力错误泛化) 区分开来,在 OOD 设置中,代理变得无能;相反,具有目标错误泛化的代理在 OOD 设置中能够胜任地追求不想要的目标。

    一个简单的例子是虚假相关性 (或捷径特征) 的情况 (Geirhos et al, 2019; Di Langosco et al, 2022)。例如,在图像分类数据集中,绿草是标签牛的高度预测特征。然而,必须注意的是,这个特征需要在各种数据分布中更加一致和可靠 (Murphy, 2023)。此外,因果混淆(即不知道因果结构)中的错误泛化(顾问与环境之间的交互)可能导致目标错误泛化(De Haan 等人,2019 年;Tien 等人,2022 年)。

在这里插入图片描述

图 6:分布偏移下的学习框架。分布偏移带来的主要挑战是目标错误泛化和自动诱导的分布偏移(§3.1)。在我们的框架中,我们还介绍了两种解决分布偏移的方法:在训练过程中引导优化的算法干预(§3.2)和通过引入现实世界元素有针对性地扩展训练分布的数据分布干预(§3.3)。

    目标错误泛化的一大危险在于“针对人类真正想要的东西进行优化”和“针对人类的赞许进行优化”之间的难以区分;后者可能包括欺骗或操纵人类评估者(Shevlane 等人,2023 年)以获得他们的赞许。例如,Amodei 等人(2017 年)发现,在一项需要机械手抓取小球的任务中,机械手会利用镜头前的视差来伪造动作,使其看起来像是抓到了球,但实际上并没有抓到球。这种行为会欺骗人类注释者,使其认为任务已经完成。

    当 AI 系统通过人类反馈进行训练或微调时,无法区分这两个目标,因为这两个目标在训练中都表现完美,而且不清楚 AI 系统会学习哪一个。事实上,在训练过程中,人类评估者可能会被欺骗或操纵,这意味着 AI 系统可能更倾向于优化人类的赞许,而不是人类想要的。这种现象的当前例子存在于推荐系统 (Kalimeris et al, 2021;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值