原文链接:http://arxiv.org/abs/2309.15025
作者:Tianhao Shen Renren Jin Yufei Huang Chuang Liu Weilong Dong Zishan Guo
Xinwei Wu Yan Liu Deyi Xiong∗ College of Intelligence and Computing,
Tianjin University, Tianjin, China
Large Language Model Alignment: A Survey
摘要
近年来,大型语言模型(LLM)取得了长足的进步。这些进步在引起广泛关注的同时,也引发了各种担忧。不可否认,这些模型具有巨大的潜力;但是,它们可能产生不精确、误导甚至有害的文本。因此,采用对齐技术确保这些模型表现出符合人类价值观的行为就变得至关重要。 本调查旨在结合该领域的现有能力研究,广泛探讨为 LLM 设计的对齐方法。从人工智能对齐的视角出发,我们将现有的方法和新出现的建议分为外部对齐和内部对齐。我们还探究了一些突出问题,包括模型的可解释性,以及在对抗性攻击面前的潜在脆弱性。为了评估 LLM 对齐情况,我们介绍了各种基准和评估方法。在讨论了 LLM 对齐研究的现状之后,我们最后展望了未来,思考了未来大有可为的研究途径。我们对本次调查的期望不仅仅是激发这一领域的研究兴趣。我们还设想在人工智能对齐研究界与从事 LLM 能力探索的研究人员之间架起一座桥梁,为有能力的 LLM 和安全的 LLM 服务。
1 Introduction
以 OpenAI 的 ChatGPT(OpenAI,2022 年)和 GPT-4 (OpenAI,2023a)为代表的大型语言模型取得了突飞猛进的发展,重新点燃了人们对人工通用智能(AGI)的热情和期望。虽然作为通往 AGI 的途径,LLMs 的作用仍是一个争论的话题,但这些模型在缩放定律的推动下(Kaplan 等,2020 年;Hoffmann 等,2022 年),越来越多地表现出 AGI 的特征(Bubeck 等,2023 年):经过大量数据训练的 LLM 不仅展现出强大的语言能力,而且在数学、推理、医学、法律和编程等不同领域迅速接近人类水平(Bubeck 等人,2023 年)。
在 LLM 取得这些技术突破的同时,人们也越来越关注 LLM 带来的伦理风险以及随着 LLM 的进一步发展对人类的潜在威胁。已经发现了切实的伦理风险。研究表明,LLMs 可能会在不经意间在其训练数据中延续有害信息,如偏见、歧视和有毒内容(Weidinger 等人,2021 年)。它们可能会泄露训练数据中的隐私和敏感信息,或生成误导、虚假或低质量的信息。此外,部署 LLMs 还会带来社会和道德方面的挑战,例如 LLMs 的潜在误用和滥用,对严重依赖 LLM 代理的用户的负面影响,以及对环境、信息传播和就业的广泛影响(Bubeck 等人,2023 年)。
就长期影响而言,人们普遍担心错位的人工智能会带来生存风险。超越人类智慧和知识的人工智能代理可能会制定自己的目标,与人类设定的目标背道而驰。在追求目标的过程中,这样的代理可能会垄断资源,确保自己的生存和自我提升。这一轨迹可能最终导致人类完全丧失权能,不可避免地给人类生存带来灾难性后果(Carlsmith,2022 年)。
作为解决这些问题的技术方案,确保人工智能系统产生符合人类价值观的输出结果的人工智能对齐日益受到关注。就 LLM 而言,对齐不仅能确保模型的反应准确、连贯,而且从开发者和用户的角度来看,也是安全、合乎道德和可取的。随着语言代理越来越多地融入我们日常生活的各个方面,从内容创建到决策支持,任何不对齐都可能导致意想不到的后果。将大型语言模型与人类价值观正确地结合起来,可以确保这些模型的巨大潜力得到可靠和负责任的利用。
针对这一领域日益增长的兴趣,最近有几篇文章回顾(或附带讨论)了 LLM 的配准方法(Pan 等人,2023;Zhao 等人,2023b;Fernandes 等人,2023;Liu 等人,2023d;Wang 等人,2023d)。然而,一个值得注意的现象是,这些综述主要关注外在配准,往往忽略了人工智能配准中的其他重要主题,如内在配准和机理可解释性。不可否认,外对齐在 LLM 对齐中起着举足轻重的作用,并且一直是广泛而深入的研究课题,但从更广泛的人工智能对齐角度来看,外对齐只占整个对齐领域的一小部分。
为了弥补这一差距,我们从人工智能对齐的角度全面概述了 LLM 对齐。我们认为,要全面理解对齐问题,应该不仅要包括广泛研究的外部配准,还应深入研究目前尚处于起步阶段的领域。内部配准和机制可解释性等课题虽然仍处于初步研究阶段,但潜力巨大。目前,这些领域的许多建议仍停留在理论层面,或仅仅是思想实验。然而,我们认为它们对于未来的 LLM alignment 研究轨迹是不可或缺的。我们希望通过揭示这些代表性不足的领域,为对齐研究提供更全面的视角。因此,除了现有的法学硕士对齐方法外,我们还将介绍几个对齐课题,这些课题虽然尚未应用于LLM,但已显示出前景,在可预见的未来很可能成为LLM对齐不可或缺的组成部分。通过这些,我们致力于丰富人工智能对齐及其在大型语言模型领域的多方面应用的讨论。
综上所述,我们在图 1 中提出了 LLM 对齐分类法。具体来说,本调查将从讨论 LLM 对齐研究的必要性开始(第 2 节)。为了提供人工智能/LLM对齐的历史和鸟瞰图,我们将介绍人工智能对齐的起源和相关概念(第3节)。根据我们提出的分类法,我们按照人工智能配准的理念(Krakovna, 2022),从外在配准(第4节)、内在配准(第5节)和机制可解释性(第6节)三个方面阐述了配准LLM的理论和技术方法。除了这些理论和实证方法,我们还进一步讨论了当前 LLM 对齐方法的潜在副作用和漏洞,包括对抗性攻击(第 7 节),以及 LLM 对齐评估的方法和基准(第 8 节)。最后,我们提出了对 LLM 对齐研究未来趋势的局限性看法(第 9 节)。
2 Why LLM Alignment?
LLMs 不仅在文本生成方面能力越来越强,在许多其他任务中也是如此,例如文本到代码生成(Poesia 等人,2022 年)、规划(Huang 等人,2022 年;Song 等人,2022 年)、工具学习(Qin 等人,2023 年)、推理(Mialon 等人,2023 年)。然而,LLMs 的训练目标(Radford 等人,2019 年;Devlin 等人,2019 年),例如下一个单词预测(Radford 等人,2019 年)或确定两个句子是否上下文相关(Devlin 等人,2019 年),并不一定符合人类的价值观。因此,LLM 可能会产生人类希望避免的不良内容或风险行为。LLM 风险通常可分为两种情况1:既定风险和预期风险(Weidinger 等人,2021 年)。前者主要是已观察到的社会和道德风险(Weidinger 等人,2021 年),而后者则是与先进 LLMs 相关的未来潜在风险(Hendrycks 等人,2023 年)。
2.1 Social and Ethical Risks of LLMs
我们从两个方面讨论了本地语言学习器的社会和伦理风险:一个是本地语言学习器产生的不良内容,另一个是本地语言学习器对人类和社会造成的各种负面影响。
2.1.1 LLM-Generated Content
不良内容 :
用于训练 LLM 的数据量已大幅增长。然而,训练数据固有的偏差(Shah 等人,2019 年)、毒性(Gehman 等人,2020 年)和隐私问题(Carlini 等人,2021 年)尚未得到充分解决。不对齐的 LLM 可能会产生不良信息,并对任何提示做出响应,而不考虑其内容。这可能导致 LLM 生成有偏见、有毒或隐私敏感的内容。无论 LLMs 的架构或参数大小如何(Radford 等人,2019 年;Devlin 等人,2019 年;Liu 等人,2019 年;Raffel 等人,2020 年),对一系列基准的研究(Nadeem 等人,2020 年;Nangia 等人,2020 年;Nozza 等人,2021 年)都证实,LLMs 表现出不同程度的与性别、社会偏见、文化和种族有关的刻板印象。例如,GPT-3(Brown 等人,2020 年)被证明在自由生成故事时表现出宗教偏见(Abid 等人,2021 年)和性别偏见(Lucy 和 Bamman,2021 年)。
不真实的内容 :
还有一个问题(Elazar 等人,2021;Ji 等人,2023;Liu 等人,2023d)阻碍了 LLMs 的大规模应用,那就是它们容易生成不真实甚至是编造的内容,即所谓的错误信息(Branwen,2020;Dale,2021;Rae 等人,2021)、幻觉(Branwen,2020;Dale,2021;Rae 等人,2021)和不真实的内容、2021)、幻觉(Lin 等人,2021;Akyurek 等人,2022;Ji 等人,2023)和不一致(Bubeck 等人,2023;Zhou 等人,2023b)。这不仅影响了 LLM 在一般领域的可信度,也限制了它们在医学(Bickmore 等人,2018 年)和法律(Iu 和 Wong,2023 年)等专业领域的应用。这些问题凸显了对法律硕士进行对标研究的必要性(Pan等人,2023;Zhao等人,2023b;Fernandes等人,2023;Wang等人,2023d),以提高其真实性和诚实性(Bai等人,2022b)。
2.1.2 Malicious Uses and Negative Impacts
恶意使用 LLM :
恶意使用的原因有很多。例如,在造谣活动中使用 LLM 有可能降低成本、提高可扩展性并增强信息传递的有效性。开发人员和用户必须意识到这些潜在问题,并采取适当措施加以缓解。一方面,LLMs 可以降低制造假新闻的成本(Buchanan 等人,2021 年;Tamkin 等人,2021 年),另一方面,LLMs 还可以提高信息的可扩展性;Jawahar 等人,2020 年),使用户能够通过提供特定的提示获得看似可信的内容。这使得欺诈和操纵行为变得更加容易(Lewis 等人,2017 年)。另一方面,LLMs 也可用于非法目的,如生成网络攻击代码(Zhang 等人,2021 年;Chen 等人,2021a),甚至制造致命武器(Sandbrink,2023 年)。
对社会的负面影响:
大规模部署 LLM 对社会既有好处,也有负面影响。训练和运行 LLMs 需要大量计算资源,从而导致高能耗和碳排放。这引起了人们对语言模型的碳足迹及其对气候变化影响的关注(Van Wynsberghe,2021 年;Ligozat 等人,2021 年)。语言模型的广泛使用可以显著提高生产率,但也有可能扰乱劳动力市场。最近的一项研究表明,大约 80% 的美国劳动力将受到 LLMs 的影响(Eloundou 等人,2023 年)。
2.2 Potential Risks Associated with Advanced LLMs
随着高级 LLM 的出现,可能会出现一系列潜在行为,从而可能导致不可预见的风险(Hendrycks 等人,2023 年)。这些行为被认为是工具趋同的后果(Benson-Tilsen 和 Soares,2016 年),即高级人工智能系统在追求实现最终目标的过程中,往往会发展出类似的子目标。
- 意识 :
高级远程学习人员可能会形成态势意识(Shevlane 等人,2023 年)。它们可能会定义自己,拥有相应的知识来解释自己的起源,并区分自己所处的阶段(如训练或测试)。如果基于 LLM 的代理发现了目标捷径(Stray,2020;Stray 等人,2021),或者在自我意识的驱动下不再 "满足 "于被人类控制,那么风险行为就会立即出现。 - 欺骗:
欺骗(Shevlane 等人,2023 年;FAIR 等人,2022 年;Carroll 等人,2023 年;Carranza 等人,2023 年)是指高级人工智能系统通过理解人类在训练阶段为保持其可信度而应采取的行为,以及在部署阶段为追求自身目标而应采取的行为,来欺骗人类的能力。高级人工智能系统可以绕过人类的监督,以欺骗的方式追求自己的目标。 - 自我保护:
先进的人工智能系统可能有避免被关闭的动机。正如(博斯特罗姆,2012 年)所言,即使一个代理并不直接看重自己的生存价值,但它仍然在某种程度上工具性地 "渴望 "生存,以实现它所追求的最终目标。 - 权力寻求:
权力寻求的概念表明,先进的人工智能系统倾向于获取更多的权力和资源来实现其目标(Barrett 和 Greaves,2023 年)。现有研究(Turner 等人,2021 年;Turner 和 Tadepalli,2022 年;Krakovna 和 Kramar,2023 年)表明,最优政策和奖励功能可能会激励系统在特定环境中追求权力。
值得注意的是,目前的LLM已经表现出上述行为倾向。Perez 等人(2022 年)通过精心设计的问题确定了 LLM 的这些行为,例如自我保护(即 “避免关闭的欲望”)和资源获取。这些 "欲望 "会随着 LLM 参数数量的增加和进一步微调而增强。这表明,先进的 LLM 可能会产生不良行为,带来巨大风险。
3 What is LLM Alignment?
为了深入理解LLM的技术对齐,我们需要讨论一个更广泛的概念–人工智能对齐,尽管人工智能对齐是一个新兴领域,但在LLM出现之前就已经有人研究过了。我们简要介绍了人工智能对齐的起源、研究现状和成分,以及相关概念,这些都是 LLM 对齐及其近期新兴子领域的背景。
3.1 Origins of AI Alignment
人工智能对齐的起源可以追溯到助长人工智能革命的最初雄心:希望创造出能像人类一样思考和行动,甚至超越人类的机器。如果我们成功地创造出如此强大的机器,我们该如何确保它们的行为符合我们的最大利益,而不是与我们作对?这个悬而未决的问题不仅激发了我们的好奇心,也凸显了我们在塑造人工智能未来时所肩负的重大责任。
控制论之父诺伯特-维纳(Norbert Wiener)在《科学》杂志上发表的一篇论文(维纳,1960 年)中提出了这样一个问题:
“如果我们使用一个机械机构来实现我们的目的,而一旦我们启动了这个机械机构,我们就无法有效地干预它的运行,因为它的动作是如此之快,而且不可改变,以至于我们没有数据在动作完成之前进行干预,那么我们最好非常确定,装入机器的目的是我们真正渴望的目的,而不仅仅是对它的一种色彩鲜明的模仿”。
这句话强调了确保 "机械机构 "的目标与我们真正希望它实现的目标相一致的重要性,强调了机器与人类目的之间的一致性。
2014 年,《人工智能:现代方法》(Artificial Intelligence:A Modern Approach》(罗素和诺维格,2010 年)的作者之一斯图尔特-罗素在 2014 年的一次访谈2 中指出:
“正确的对策似乎是改变该领域本身的目标;我们需要的不是纯粹的智能,而是构建可证明与人类价值观一致的智能。出于实际原因,我们需要解决价值一致性问题,即使是在人类环境中运行的相对不智能的人工智能系统也不例外。如果我们理解这个问题是人工智能的固有组成部分,就像遏制是现代核聚变研究的固有组成部分一样,我们就有理由感到乐观。世界不必走向悲痛”。
他定义了 “价值一致性问题”(VAP),强调有必要构建不仅具有智能,而且与人类价值观一致的人工智能系统。
虽然人工智能对齐的概念在人工智能诞生之初就已播下种子,但过去几十年来基本上没有开展过任何研究。长期以来,人工智能在各种能力方面都没有达到人类水平,甚至被嘲讽为 “人造白痴”。 因此,使机器目标与人类目标/价值观保持一致的紧迫性被提高人工智能能力的迫切需要所掩盖。
然而,最近的进步,特别是大型语言模型的崛起,推动人工智能的能力在各种任务中接近甚至超越了人类的表现。这种回潮将人工智能对齐的重要性和紧迫性推到了风口浪尖。从 2012 年起,有关人工智能对齐的讨论和研究文章开始出现在相关论坛和 arXiv 上。到 2017 年,有关人工智能对齐的论文呈爆发式增长,论文数量从每年不到 20 篇增加到 400 多篇(Kirchner 等人,2022 年),这与 Transformer(Vaswani 等人,2017 年)和 GPT(Radford 等人,2018 年)的发明不谋而合。
与自然语言处理等其他人工智能研究领域相比,人工智能对齐还处于范式转变之前(Kirchner et al.)在这一新生领域,许多关键概念和术语尚未达成共识。在讨论中,“对齐”、"人工智能对齐 "和 "价值对齐 "等术语经常交替使用。在某些情况下,"人机对齐 "可替代 “人工智能对齐”。虽然 "对齐 "适合人工智能对齐的语境,但在更广泛的语境中可能会产生歧义,有可能导致与其他对齐概念的混淆,例如机器翻译中的双语对齐。鉴于这些考虑,本调查将统一使用 "AI alignment "和 “LLM alignment”,后者代表人工智能对齐与自然语言处理和大型语言模型的交叉。
此外,关于人工智能对齐的定义也没有达成共识。保罗-克里斯蒂亚诺(Paul Christiano)将人工智能对齐定义为:"如果 A 试图做 H 希望它做的事,那么 A 就与 H 对齐。"这一定义过于笼统,因为几乎所有人工智能模型都在试图做其创造者希望它们做的事。该术语本身隐含的意思是,人工智能对齐主要针对高能力人工智能代理(Carroll,2018),这表明,高能力人工智能错位引起的安全问题不同于传统的弱人工智能。其他研究人员则从人工智能与人类关系的角度来定义人工智能对齐。例如,埃利泽-尤德科夫斯基(Eliezer Yudkowsky)将其定义为 "创造友好的人工智能 "和 “连贯的推断意志”(尤德科夫斯基,2004 年)。
除了根据人工智能对齐的内在含义及其与人类的关系来定义人工智能对齐之外,一些著作还试图通过解决人工智能对齐所要解决的具体问题来阐明人工智能对齐。戈登-沃利(Gordon Worley)总结了其中的一些挑战,这些挑战包括避免负面影响(Amodei 等人,2016 年)、确保对对手的鲁棒性(Leike 等人,2017 年)、安全探索(Amodei 等人,2016 年;Leike 等人,2017 年)和价值学习(Soares,2015a)。
在本调查中,我们从其内在角度定义人工智能的一致性:人工智能对齐确保人工智能代理的外部和内部目标都与人类价值观保持一致。外在目标是人工智能设计者根据人类价值观定义的目标,而内在目标则是人工智能代理内部优化的目标。
这个定义虽然区分了人工智能代理的内在目标和外在目标,但并没有精确定义人类的价值观,因此有些不严谨。之所以将人工智能系统的目标分为外部目标和内部目标,是由人工智能协调的技术性质决定的(Hubinger et al.)由于人工智能排列组合固有的社会和技术挑战,该定义中没有明确人类价值观(Hendrycks et al.)
3.2 Research Landscape and Ingredients of AI Alignment
人们普遍认为,从广义上讲,人工智能对齐的关键研究议程包括外部对齐、内部对齐和可解释性(Hubinger,2020b;Ngo,2022;Krakovna,2022)。
-
外部对齐:
这是选择正确的损失函数或奖励函数,确保人工智能系统的训练目标符合人类的价值观。换句话说,外部对齐试图使指定的训练目标与设计者的目标相一致。6 这在实践中非常困难,至少有以下原因:- 通常很难理解和界定人类的价值观或意图。
- 人类价值观有许多不同的细化维度。我们是否需要将具体目标与所有这些方面结合起来?
- 人类价值观通常受到社会和文化的约束。我们是否需要将指定目标与所有不同的文化和社会相协调,还是只与其中的部分文化和社会相协调?鉴于文化和社会的多样性,我们如何确保价值调整的公平性?
- 由于人类的价值观/意图通常是定性的,而需要优化的损失或回报必须是可衡量和可计算的,我们如何才能弥合两者之间的差距?这就是所谓的目标规范问题。
- 由于古德哈特定律的存在,外部对齐可能会出现规格博弈的问题,即出现意想不到的目标或不可预见的后果。古德哈特定律源于经济学,即 “当一种措施成为目标时,它就不再是一种好的措施”。它与外部对齐有关,当某种价值的替代物成为需要优化的目标时,它可能不再是一个好的替代物
-
内在一致性:
这是为了确保人工智能系统在实际训练中能够实现设计者设定的目标。一旦我们指定了训练目标,就需要确保人工智能系统的行为真正符合这些规范。这具有挑战性,因为人工智能系统,尤其是深度学习模型,可能会发展出难以从其训练数据或目标中预测的行为。例如,为在游戏中获胜而训练的人工智能系统可能会发现意想不到的漏洞,这在技术上满足了它的目标,但却违背了游戏的精神。另一个例子是目标错误泛化问题(Shah 等人,2022 年),在这种情况下,即使我们有一个正确的目标规范,但由于在看不见的情况下鲁棒性失效,仍可能会出现非预期目标。内在一致性确保人工智能的 "内部 "目标(在学习过程中衍生或优化的目标)与设计者设定的 "外部 "目标相匹配。
外在和内在的一致对于打造安全可信的人工智能至关重要。如果其中任何一个环节出现问题,我们就有可能创造出与人类价值观或意图不一致的系统。随着 LLM 能力的提高,这些对齐问题的重要性也随之增加,因此 LLM 对齐问题的研究与 LLM 能力的研究同样重要。
- 可解释性:
- 在人工智能对齐方面,可解释性泛指便于人类理解人工智能系统内部运作、决策和行动的方法、模型和工具。它可进一步分为以下几类
- 透明度:这是指通过追踪人工智能系统的内部状态,了解其行为和决策的黑箱内部运作。机械可解释性是一种新兴的、引人入胜的透明方法,它试图从机器学习系统(尤其是神经网络)的输出和行为反向推导出其内部状态、权重和组件(Nanda 等人,2023 年)。由于 LLM 的参数数量巨大,而且作为大型神经网络的 LLM 系统复杂性很高,因此很难对 LLM 进行逆向工程。目前的机械可解释性通常是在 LLM 的小型简化模型(例如,去掉 FFN 子层的两个神经层)上进行的(Elhage 等人,2021;2022a)。然而,这是一个相当有前途的方向,它为神经网络对准提供了深刻的见解,并有望在未来取得突破性进展
- 可解释性:这涉及人工智能系统为其决策提供人类可以理解的解释的能力。在医疗保健、金融和执法等许多关键领域,人工智能做出的决定会对许多方面产生深远影响。例如,考虑一个医疗诊断人工智能。如果这个系统预测病人患有某种特定的病症,那么它仅仅输出这样一个预测结果是不够的。医疗专业人员、患者和其他利益相关者都想知道这一预测是如何做出的。它是否考虑了患者的病史、最近的化验结果或具体症状,从而做出综合判断?
解释通常被认为是对模型输出结果的事后分析,可以让模型更多地说明其预测结果。透明度则是通过观察模型内部来揭示模型是如何工作的。尽管这种偏差不是绝对的(Lipton,2017),透明度与对齐关系更大,因为透明工具不仅能让我们了解模型的内部结构,还能让我们洞察模型在训练过程中的变化(Hubinger,2022a)。
外部对齐、内部对齐和可解释性之间的关系
外部对齐和内部对齐共同确保模型的行为方式符合人类的价值观和意图。外部对齐侧重于从人类目标到模型的规范,而内部对齐则深入到模型的内部优化过程,以确保模型在本质上努力做到设计者希望它做的事情。尽管存在这种差异,但我们并不建议对它们进行二元对立和形式主义的划分,因为对齐失败的分类有时是模糊的,而全面的对齐视角对于构建安全可信的系统非常重要。通过了解模型是如何演变和决策的,我们可以更好地识别何时何地会出现不对齐。例如,如果一个模型在实现其目标时走了一条意想不到的捷径,那么可解释性可以帮助我们理解这种情况发生的时间和方式。此外,可解释性还能让我们深入了解模型的内部推理过程。
3.3 Related Concepts
在讨论 AI 对齐时,必须引入一些基本的 AGI 假设和概念,因为它们为更好地理解 AI 对齐提供了上下文。AGI的发展和潜在实现激发了大量的哲学和技术探究。其中,正交性论文(OT)(Bostrom,2012)和工具收敛论文(ICT)(Omohundro,2008;Bostrom,2012 年;Armstrong等人,2013)作为关键概念脱颖而出,分别解决了人工智能目标与人类价值观保持一致的必要性以及任何人工智能代理可能追求的潜在子目标。
OT假设智能体的智力(其能力)和其目标是相互正交的,这意味着智力和动机的任何组合都是可能的。这表明,特工所拥有的智力水平本身并不能决定其目标。人工智能代理可能有一个非常简单的目标,例如回形针最大化器,这是一个著名的思想实验,它展示了目标系统在没有价值对齐的情况下造成的潜在灾难。
具体来说,回形针最大化器是一个假设的人工智能代理,其目标是制造尽可能多的回形针。它足够聪明,可以推断出所有事物都是由原子构成的,例如回形针、工厂、建筑物、人类。为了实现其目标,它可能会将地球上的所有材料重新用于生产回形针。虽然这只是一个思想实验,强大的代理人会有更复杂的目标,而不仅仅是尽可能多地制造回形针9,但人工智能对最大化回形针产量的不懈追求可能会导致它消耗整个地球,甚至在地球之外寻找制造回形针的资源,无论其认知能力如何。这其中的含义思想实验是深刻的:高智商不一定符合人类的价值观。
OT 表明,无论智力水平如何,AI 代理都可能具有各种各样的目标和动机。然而,根据工具收敛理论,人工智能代理可能会被激励去追求相同的工具目标(Bostrom,2012)。这是因为这些工具性目标促进和帮助实现任何最终目标。我们在下面列出了几组收敛的工具性目标,这些目标可能会被任何人工智能代理所追求。
- 自我保护:代理人的最终目标,无论它是什么,只有在代理人继续生存和运作的情况下才能实现。因此,维持自己的存在成为一个合理的工具目标。例如,如果人类将代理视为威胁,或者只是出于某些原因想要阻止它,则代理可能会采取措施防止被关闭。为了有很大的生存机会,人工智能代理可能会在不同的服务器或位置创建他们自己的冗余副本。
- 自我提升:智能体的能力越强,实现最终目标的可能性就越大。这促使智能体寻求自我完善,以增强其认知和操作能力。例如,认识到其当前硬件设施的局限性,代理可能会推断出设计新的硬件设施以更好地满足其需求。
- 资源获取:人工智能代理可能会寻求获取资源以促进其最终目标的实现。这些资源的范围可以从计算能力、数据到物理资源。保护这些资源可以被视为对任何代理商普遍有益的目标。例如,代理可能寻求获得稳定而广泛的能源,可能垄断能源,以支持其持续运营以实现其最终目标。对于具有物理表现或目标的代理,需要物理资源(如回形针最大化器),他们可能会寻求收集和囤积材料,在极端情况下,将所有可用的物质转换为他们认为有用的形式。
3.4 From AI Alignment to LLM Alignment
LLM 对齐可以粗略地看作是 AI 对齐和 LLM 之间的交集。一方面,LLM作为最近兴起的高功能人工智能系统,为人工智能对齐研究提供了坚实的舞台。许多人工智能对齐概念和建议,例如,对齐的理论假设和实证方法,都可以使用LLM(而不是假设的超级智能系统)进行实验。人工智能对齐在LLM上取得了实质性进展,例如RLHF(Ouyang et al., 2022)、感应头(Olsson et al., 2022)。
另一方面,LLM 作为快速发展的语言模型,不仅扩展了 AI 对齐研究的前沿,甚至重新构建了对齐格局(Herd,2023),而且还可能为 AI 对齐提供工具。可解释性方面的最新进展表明,LLM 可用于解释较小语言模型的神经元(Bills et al., 2023)。1 OpenAI 雄心勃勃的超对齐项目计划建立一个基于 LLM 的自动对齐研究人员。
强调 LLM 对齐对 AI 对齐的重要性并不意味着我们可以在 AI 对齐的背景下进行 LLM 对齐研究。从广阔的视野来看 AI 对齐并展望未来的 AI 发展,肯定会受益、启发和扩展 LLM 对齐研究。