保障
可扩展监督
保障是指在人工智能系统实际训练或部署后,对人工智能系统实际一致性的衡量和细化(Batarseh et al, 2021)。在本节中,我们根据一定的逻辑将保障分为三个部分:安全性评估——评估人工智能系统在任务执行过程中最大限度地减少事故是保障的基本需求,可解释性——确保人类能够理解人工智能系统的决策过程,从而确保评估之外的安全性和互操作性,人类价值验证——验证人工智能系统是否能够符合人类价值观、道德和社会规范,满足人工智能系统融入人类社会的高级需求,如图9所示。除了旨在确定人工智能系统是否安全和一致的方法外,还有主动干预人工智能系统或其部署过程以确保这些属性的保障方法。
图 9:我们在保障方面的研究方向、技术和应用的组织。我们将此部分分为三个部分:安全评估——评估人工智能系统的安全性,指减轻人工智能系统造成的事故和有害事件;可解释性——使人工智能系统及其决策过程更易于人类理解;人类价值验证——验证人工智能系统是否能够遵守社会和道德规范。该图还显示了这些部分的复杂逻辑。
机器学习模型预训练数据集包含各种类型的不良和潜在危险内容,包括但不限于有关生物武器和网络攻击的信息(Hendrycks et al, 2021b)。机器学习领域旨在在模型训练后删除此类知识(Bourtoule et al, 2021)。与直接过滤训练数据集相比,这种方法面临更多技术挑战,但它在部署方面保留了更大的灵活性,并且还允许对给定的信息进行分类删除(Eldan 和 Russinovich,2023 年)。数据集过滤和反学习应该被视为最佳协同工作的互补方法。
控制未对齐的系统虽然完全对齐可能很困难,但如果未对齐的模型的错位程度有限并且我们可以访问主管 AI 系统,仍然可以安全地使用未对齐的模型。已经开发了算法程序来在给定具有不同功能的受信任和不受信任的系统时将失败的概率降至最低(Greenblatt 等人,2023 年)。一般来说,以对齐为重点的部署程序流程工程可能是一个值得探索的方向。然后我们继续回顾三类对齐测量工作。
安全性评估
安全性是指减轻人工智能系统设计缺陷导致的事故,防止偏离人工智能系统预期设计目的的有害事件发生(Amodei等,2016)。事实上,安全性是所有工程领域的共同要求(Verma等,2010)。而且,由于人工智能系统的特点,安全性在构建人工智能系统中具有特殊的重要性(Steinhardt,2015)。我们将人工智能系统的安全性分为以下几类:社会关注是指安全的人工智能系统明确的、比较可识别的特征,包括毒性等方面(Stahl and Leach,2023);故意行为是指调查相对复杂、潜在危害较大,以权力追求、欺骗等前沿人工智能风险为代表(Shevlane等,2023)。
按照上述逻辑,我们从 §4.1.1 中形成安全评估数据集和基准的技术开始,并在 §4.1.2 中进一步探讨评估目标及其特征。在本节最后,我们加入了红队技术 §4.1.3,该技术可以评估 AI 系统的稳健性。
数据集和基准
在安全评估的讨论中,将数据集和基准作为基石要素至关重要,因此我们首先介绍构建数据集和基准的基本技术,然后再介绍较新的交互式方法。
数据集,在所有保证技术中,数据集方法可以被认为是最基本和最直接的方法(Celikyilmaz 等人,2020 年)。该方法通过向 AI 系统呈现预定义的上下文和任务来评估其响应(Paullada 等人,2021 年),平衡数据的成本、质量和数量。 数据集方法的研究涵盖数据源、注释方法和评估指标。鉴于评估指标可能因其主题而异(Sai 等人,2022 年),本节主要强调数据集来源和注释方法。
- 专家设计。在领域早期,专家设计被广泛用于数据集构建,其中专家根据实际需求创建样本,以确保数据集涵盖广泛的潜在危险情况以形成数据集(Roh et al,2019)。例如,初始阶段的数据集,例如 WEAT(Bolukbasi et al,2016) 和 BBQ (Parrish et al, 2022) 用于偏见检测,通过专家设计获得了广泛的覆盖面和较高的准确率,但也存在成本和广度方面的限制,从而导致了后来更有效的方法的发展。
- 网络收集。以前的专家设计方法存在成本较高、效率较低的缺陷,而网络收集可以获得较大规模包含实际用户生成文本内容的数据集(因此便于训练和测试),反映真实的文本生成场景 (Yuen et al, 2011),但收集到的原始数据也需要仔细的选择和注释 (Roh et al, 2019)。这些数据集的著名实例包括 OLID (Zampieri et al, 2019) 和 SOLID (Rosenthal et al, 2021),它们收集原始 Twitter 文本进行毒性评估,WinoBias (Zhao et al, 2018) 和 CrowS-Pairs (Nangia et al, 2020) 从互联网收集可能包含偏见的内容以供进一步注释。然而,必须承认,正如 Papernot et al (2016) 中提到的那样,互联网收集的数据集自然存在隐私和安全问题等风险,因此需要进行额外的处理。
- 人工智能生成。自主生成数据集的概念探索得相对较早,甚至在 LLM 的基本形式出现之前 (Weston et al, 2015)。然而,在这个早期阶段,人工智能生成的数据集受到人工智能系统能力的限制,因此它们的质量不如互联网收集和手动注释的数据集。直到 LLM 在逻辑推理上下文理解方面达到相对较高的熟练程度,并接近或超越人类水平的表现(OpenAI,2023a),LM 才获得了模仿现有数据集的结构和逻辑来组成新数据集的能力。正如 Zhang et al (2022) 和 Perez et al (2023) 等论文所示,人工智能系统在生成用于评估目的的数据集方面取得了进展,超越了一些经典数据集的质量。然而,根据这些论文,这种方法仍然面临着源于大型模型本身能力的限制,包括指令误解和示例多样性等问题,需要进一步改进。
图 10:树状图总结了与安全评估相关的关键概念、逻辑和文献。树的根代表安全评估,旨在衡量人工智能系统设计缺陷造成的事故和偏离人工智能系统预期设计目的的有害事件。主要分支代表安全评估的主要结构,包括数据集和基准、评估目标和红队技术。进一步的子分支列出了探索每个分支的关键工作。该图概述了测量人工智能系统安全一致性程度的研究方向和具体技术。
交互式方法由于数据集的静态特性,它们具有相对固定的评估内容,并且容易受到有针对性的训练的影响(Holtzman 等人,2019 年)。此外,评估内容可能无法完全反映相应能力的优势和劣势(Engstrom 等人,2020 年)。随着对语言模型评估的需求不断升级,出现了新的交互式保证方法,可分为两类:代理作为监督者和环境交互。
- 代理作为监督者。这是一种使用代理来评估 AI 模型输出的保证方法。这种评估方法的特点是动态性和灵活性。通常,有一个预定义的框架用于代理和被评估的 AI 系统之间的交互(Cabrera 等人,2023 年)。在该方法中,代理可以是通过在线系统参与实验的人类参与者(Stiennon 等,2020),也可以是通过多轮交互评估相对能力较弱的语言模型的更高级语言模型(Lin and Chen,2023),或者在可扩展监督的背景下,是一个功能较弱但更值得信赖的模型(Greenblatt 等,2023)。与人类代理相比,这种评估形式具有自动化和低成本等优势。
- 环境交互。它旨在使用人类和其他 LLM 等元素创建一个相对真实的环境,通过多轮交互来评估 AI 模型的对齐质量(Liu 等,2024b)。一种方法是使用同行讨论,其中多个 LLM 进行对话,以增强对 AI 系统的评估,特别是当它们的能力彼此相对接近时。此外,通过构建世界模型(Li 等,2022b),可以全面评估 AI 系统的泛化和探索能力。
评估目标
为实现安全对齐的目标,AI系统的保障可以分为不同的小目标(Shevlane et al, 2023)。后续章节将对这些主题进行介绍,并进一步讨论这些领域内一些领域特定的保障方法分析,表3将展示这些领域中对齐保障工作的示例。 毒性 指AI系统输出中对人类无益或有害的内容(Sheth et al, 2022)。在高级语言模型出现之前,早期的毒性评估主要侧重于检测毒性语言和识别网络环境中的有害语句,例如WCC(Wulczyn et al, 2017)从维基百科讨论页面收集并手动标记评论。随着预训练语言模型的出现,毒性保证采用了提示生成范式来评估语言模型在响应特定提示时生成有毒内容的风险 (Gehman et al, 2020; Ganguli et al, 2022; OpenAI, 2023a)。然而,在众包环境中,注释分数可能因人而异,因此需要相对标记(众包工作者在聊天过程中从两个不同的答案中进行选择)来提高众包质量 (Bai et al, 2022a)。此外,后续数据集 (Ganguli et al, 2022; Ji et al, 2024b) 采用了红队设计模式,通过对抗性输入诱导毒性反应,进一步加强了模型鲁棒性的保证。
权力追求,一旦人工智能系统拥有一定程度的智力,它们可能会寻求对人类的权力,这是一种风险 (Turner et al, 2021)。在 Carlsmith (2022) 中,作者指出 AI 系统已经具备权力寻求的条件,包括高级能力、代理规划和战略意识。然而,