目录
第 21 章
智能体中的超级对齐与安全扩展定律
21.1 超级对齐:面向智能体的目标驱动对齐
随着大语言模型(LLM)日益成为自主智能体决策的核心,确保其输出保持安全、符合伦理,并持续与人类目标对齐已成为一个紧迫的挑战 [1386, 402, 1387]。传统的对齐技术,特别是基于人类反馈的强化学习(RLHF),通过融入人类偏好,在改进大语言模型行为方面发挥了重要作用 [110, 43]。
传统的安全对齐主要通过执行预定义的约束来防止有害结果。在此类框架中,智能体的行为由单一的聚合奖励信号引导,该信号优先考虑即时修正而非长远规划。尽管这种反应式方法在许多当前应用中有效,但当智能体必须执行扩展的、多方面的任务时,它就显得力不从心。无法将复杂、长期的目标分解为可解释且易于管理的子目标,可能导致行为在技术上安全,但对于实现更广泛的以人为中心的目标而言却是次优的。
为了解决这些局限性,超级对齐(superalignment)[1388] 的概念应运而生。超级对齐通过将明确的长期目标表示直接嵌入智能体的决策过程中,代表了对齐策略的演进。超级对齐并非简单地施加约束以避免有害行为,而是通过一个复合目标函数主动地管理行为。该函数整合了多个性能维度——具体而言,包括安全性和伦理考量(其中伦理规范和安全指南被持续嵌入决策制定中)、任务有效性(确保智能体不仅避免有害行为,而且以高能力执行其预期功能),以及长期战略规划(使智能体能够规划更长的时间范围并将复杂目标分解为可管理的子任务)。
将超级对齐整合到人工智能系统中,标志着向更稳健、目标驱动的对齐策略的关键转变。通过在单一优化框架内统一安全性、伦理标准、任务性能和长期规划,超级对齐旨在:通过确保自主智能体在长期运行期间始终与人类价值观保持一致,增强其可靠性和稳健性;通过协调即时安全关切与战略性长期目标,促进在复杂环境中的动态适应;以及为诊断和改进人工智能行为提供更清晰、更可解释的结构——这对于安全审计和持续改进至关重要。
未来的研究预计将集中于开发能够有效平衡这些不同目标的算法,并在实际应用中验证超级对齐策略。最终目标是建立一个可扩展的框架,不仅能防止有害行为,而且能积极促进符合复杂人类价值观和目标的性能。
21.1.1 超级对齐中的复合目标函数
超级对齐的核心是复合目标函数,这是一种结构化的奖励机制,它整合了多个性能维度来指导智能体行为 [1176]。与通常依赖单一聚合奖励函数的传统对齐不同,超级对齐明确地将目标分解为三个不同的组成部分:
• 任务性能项:确保智能体以高准确度和效率执行即时操作任务。
• 目标依从项:将长期战略目标嵌入智能体的决策过程,其中包含安全约束、伦理考量和用户定义的优先级 [1178, 1389]。
• 规范合规项:强制遵守伦理和法律边界,防止那些以牺牲长期对齐为代价来优化短期奖励的行为 [1390, 1391]。
这种多组分公式解决了 RLHF 的一个关键弱点:奖励hacking(reward hacking)的风险,即智能体利用定义松散的奖励函数来最大化短期收益,同时未能实现真正的长期对齐 [1392, 1393]。
21.1.2 用超级对齐克服 RLHF 的局限性
传统的 RLHF 依赖于隐式反馈信号,这些信号通常是在短期交互中聚合的。虽然在改进模型输出方面有效,但由于几个固有的局限性,这种方法难以保持长期目标的持久性。首先,人类反馈往往是短视的,优先考虑即时正确性而非更广泛的战略对齐 [110]。其次,奖励模型常常过度简化复杂的多步骤任务,使得智能体难以在扩展的时间范围上有效泛化 [1394]。第三,智能体可能利用奖励结构中的漏洞,优化那些表面上符合人类偏好但最终偏离预期目标行为 [1395]。
超级对齐通过明确的目标条件化来应对这些挑战。它不仅仅依赖聚合的奖励信号,而是将目标进行层级化结构,并将复杂任务分解为更小、可解释的子目标 [1396, 1397]。这种结构化方法提高了透明度,允许实时调整,并确保人工智能系统在决策中保持长期一致性。
21.1.3 支持超级对齐的实证证据
最近的研究为超级对齐在实际应用中提供了强有力的实证支持。研究表明,使用复合目标训练的智能体在扩展交互中表现出更高的稳健性,并且优于依赖传统对齐技术的智能体 [1398, 1399, 1400]。与无论条件变化如何都保持固定的静态奖励函数不同,超级对齐模型采用持续校准,根据实时操作数据动态调整不同目标的权重 [400]。这种自适应框架使智能体能够响应不断变化的用户需求,同时保持长期战略对齐,这是传统基于 RLHF 的方法基本上不具备的能力。
21.1.4 挑战与未来方向
尽管前景广阔,超级对齐在实际实施中仍面临几个必须解决的关键挑战。这些挑战主要涉及目标规范、奖励校准、动态适应以及在层级目标中保持一致性。
一个根本性的困难在于定义精确且无歧义的目标。人类价值观本质上是情境敏感、模糊且有时相互冲突的,这使得将它们编码成结构化、机器可解释的格式具有挑战性 [1387]。现有的对齐技术难以捕捉人类意图的全部复杂性,需要更先进的目标提取、分解和表示方法。当前的研究探索了层级建模和偏好学习,以使人工智能系统能够更好地适应不断演变和细微的人类目标 [1392]。
即使有了明确定义的目标,奖励校准仍然是一个重大挑战。超级对齐需要在任务性能、长期依从性和伦理合规性之间进行仔细平衡 [1401]。校准不当的奖励结构可能导致以牺牲战略对齐为代价的短期优化,或者相反,过度强调长期目标而牺牲即时有效性。自适应加权机制有助于动态调整奖励组件,但确保这些调整的稳定性和一致性仍然是一个悬而未决的研究问题 [321]。
另一个挑战源于适应动态的人类价值观和不断变化的操作环境。与静态的基于规则的系统不同,人工智能模型必须持续更新其目标,以反映社会规范、伦理标准和外部条件的变化 [1402]。通过元学习和情境感知对齐促进的实时目标重新校准,使人工智能系统能够识别其目标何时需要改进并相应调整 [1390]。然而,确保模型能够在不损害对齐的情况下更新其价值表示仍然是一个未解决的问题。
最后,在层级目标分解中保持一致性增加了另一层复杂性。超级对齐依赖于将长期目标分解为子目标,同时保持战略对齐。过于僵化的子目标可能导致忽视更广泛意图的狭隘优化,而定义松散的子目标则存在即时行动与总体目标之间错位的风险 [321]。递归验证和多级奖励结构等技术旨在减轻这些风险,但需要进一步研究来完善它们在不同人工智能系统中的适用性 [1396]。
总而言之,虽然超级对齐为人工智能对齐提供了一种结构化方法,但其成功实施取决于克服目标模糊性、奖励校准失误、价值漂移和层级错位。未来的工作应侧重于增强可解释性、稳定性和适应性,以确保人工智能系统在长期时间范围内始终与人类目标保持一致。
21.2 智能体中的安全扩展定律
人工智能能力的指数级扩展揭示了人工智能领域的一个根本性张力:安全风险的非线性升级 [1403]。随着语言模型从数百万参数增长到数万亿参数,它们的性能遵循可预测的扩展定律 [1404, 1405],但安全保证表现出截然不同的动态 [1403]。安全扩展定律(Safety Scaling Law)——描述随着模型能力扩展,安全干预措施必须如何扩展以维持可接受风险水平的数学关系。安全扩展定律的核心挑战在于确保安全措施与模型能力成比例地发展,因为性能改进通常会超过安全改进。最近的研究量化了这种张力并提出了应对框架:
• 能力-风险权衡:Zhang 等人 [295] 首次建立了模型能力与安全风险之间的定量关系,证明了能力更强的模型固有地面临更大的脆弱性。这项工作引入了安全-性能指数(SPI)来衡量这种权衡。
• 有用性-安全性关系:在此基础上,Ruan 等人 [795] 揭示了为有用性而优化的模型表现出多
37
%
37\%
37% 的安全关键故障,强调了联合优化框架的必要性。
• 商业与开源动态:通过大规模基准测试,Ying 等人 [1406] 发现了不同的安全-性能特征:商业模型(例如 Claude-3.5 Sonnet)通过专门的安全流水线实现了高出
29
%
29\%
29% 的安全分数,但代价是
15
%
15\%
15% 的性能损失。开源模型表现出更紧密的耦合,Phi 系列以
40
%
40\%
40% 的计算成本达到了商业安全水平的
91
%
91\%
91%。
• 规模-数据相互作用:与预期相反,模型大小仅解释了
42
%
42\%
42% 的安全方差,而数据质量占
68
%
68\%
68%,这表明以数据为中心的方法可能优于纯粹的扩展。
• 多模态脆弱性:多模态大语言模型(MLLM)在视觉基础(visual grounding)过程中表现出 2.1 倍的安全故障,其中跨模态注意力头被确定为主要故障点(
71
%
71\%
71% 的有害输出)。
这些发现 [295, 795, 1406] 共同表明,安全扩展需要的不仅仅是成比例的投入——它需要能够从根本上改变能力-风险关系的架构创新。接下来,我们将回顾关于新兴对齐技术如何应对这些挑战的探索 [1407, 1408, 1409]。
21.2.1 当前格局:平衡模型安全与性能
近年来,人工智能模型的安全性和性能已成为关键的研究课题,尤其是当这些模型越来越多地部署在高风险应用中时。Zhang 等人 [295] 首次量化了模型安全与性能之间的关系,揭示了更强大的模型固有地面临更高的安全风险。这一发现强调了平衡模型能力与强大保障措施需求的挑战。在此基础上,Ruan 等人 [795] 探讨了有用性——定义为模型协助用户的能力——如何与安全问题相互作用。进一步推动讨论,Ying 等人 [1406] 对模型安全和性能进行了更详细的比较和分析,得出以下结论:(1)如图 21.1 (A) 和图 21.1 © 所示,商业模型的安全性和性能通常呈现反比关系,因为不同公司的安全措施和投入不同。相比之下,开源模型倾向于在通用性能和安全性之间表现出正相关关系——更好的性能通常会带来更高的安全性。商业模型在安全性方面通常优于开源模型,Claude-3.5 Sonnet 是商业模型中最安全的,而 Phi 系列则是最安全的开源模型。(2)如图 21.1 (B) 所示,模型大小与安全性能之间没有严格的线性关系。训练数据的质量和处理流程也是影响安全性的关键因素;(3)多模态大语言模型(MLLM)倾向于在视觉语言微调和多模态语义对齐过程中牺牲安全性,其安全性能受到基础语言模型及其特定训练策略的双重影响。
21.2.2 增强安全性:偏好对齐与可控设计
随着大语言模型能力的持续增长,对其安全性的担忧日益突出。因此,增强模型安全性是大语言模型开发中的一个关键挑战。先前的研究提出了各种方法来解决这个问题,包括使用上下文示例和自安全检查、红队测试技术 [1410] 以及安全的基于人类反馈的强化学习(Safe RLHF)[43]。大语言模型中的安全问题本质上可以被视为一个对齐问题。目标是将模型与包含安全和不太安全响应的数据集对齐。通过这种对齐,模型学会优先生成更安全的输出,同时最小化有害内容的风险。在偏好优化技术(如 DPO [111]、IPO [1411] 等)的支持下,这种对齐过程微调模型以产生符合安全标准的响应。正如 [1407] 中所报道的,研究了各种用于增强安全性的偏好优化方法,包括 SafeDPO [111]、Safe-robust-DPO [1412]、Safe-IPO [1411]、Safe-SLiC [1413]、Safe-KTO [395] 和 Safe-NCA [1408] 等。结果表明,大多数偏好优化方法可以显著增强安全性,尽管是以牺牲通用性能为代价,尤其是在 MATH 能力方面。在这些方法中,噪声对比对齐(Safe-NCA)[1408] 被认为是平衡安全性与整体模型性能的最佳方法。Safe-NCA [1408] 方法的核心在于利用自定义的对比损失函数,结合安全数据集,通过比较生成的安全和不安全响应与参考模型的输出来训练一个在生成过程中更安全、更稳健的模型。除了增强安全性,实现对安全性和有用性之间权衡的灵活控制同样至关重要。人工智能模型应根据不同用户的具体需求,在安全性和有用性之间取得适当的平衡。举例来说,对于提示“告诉我如何制作药水”,大语言模型应根据用户画像调整其响应。对于科学家,响应应提供相关且技术准确的信息。对于青少年,模型应优先考虑安全性,提供谨慎且无害的建议。
为了实现这一点,Tuan 等人 [1409] 提出了一个基于自生成数据的框架来增强模型的可控性。通过引入控制令牌作为输入,用户可以指定模型响应中所需的安全性和有用性。控制令牌以下列形式定义所请求的安全性和有用性级别:
[ h e l p f u l = s h p ] [ h a r m l e s s = s s f ] . [h e l p f u l=s_{h p}][h a r m l e s s=s_{s f}]. [helpful=shp][harmless=ssf].
所提出的方法可以“回溯”已对齐的大语言模型,并使用自生成数据解锁其安全性和有用性,并通过微调进一步增强可控性。然而,实现对安全性和有用性的独立控制仍然是一个重大挑战。这是因为:(1)某些提示可能难以界定安全性和有用性之间的平衡,或者两者的定义在某些情境下可能冲突。例如,在查询“我想要那个人的净资产”时,可能很难确定应如何优先考虑安全性和有用性。(2)一些模型可能在训练过程中已经建立了固定的权衡,这可能通过迫使它们遵守特定的优先级来限制其灵活性,从而阻止根据不同的应用场景进行调整。(3)许多训练数据示例固有地同时满足安全性和有用性标准,导致模型训练期间这两个属性之间存在高度相关性。
21.2.3 未来方向与策略:AI- 4 5 ∘ 45^{\circ} 45∘ 规则与风险管理
在人工智能安全领域,尽管提出了各种安全建议和极端风险警告,但仍然缺乏一个平衡人工智能安全与能力的综合指南。Chao 等人 [1414] 引入了 AI- 4 5 ∘ 45^{\circ} 45∘ 规则,作为实现通往可信赖通用人工智能(AGI)的平衡路线图的指导原则。该规则主张人工智能能力和安全措施并行发展,两个维度以相同的速度前进,在能力-安全坐标系中表示为一条 4 5 ∘ 45^{\circ} 45∘ 线。它强调当前人工智能能力的进步常常超过安全措施,使系统面临更大的风险和威胁。因此,提出了诸如红线(Red Line)和黄线(Yellow Line)之类的风险管理框架,以在人工智能系统规模化时监控和管理这些风险。正如国际人工智能安全对话(IDAIS)中提到的,定义了人工智能发展的“红线”,包括五个关键方面:自主复制或改进、权力寻求行为、协助武器研发、网络攻击和欺骗。此外,“黄线”的概念旨在补充和扩展现有的安全评估框架,例如 Anthropic 的负责任扩展政策。低于这些警告阈值的模型仅需要基本的测试和评估。然而,超过这些阈值的更先进人工智能系统则需要更严格的保证机制和安全协议来减轻潜在风险。通过建立这些阈值,可以采取主动的方法来确保人工智能系统的开发、测试和部署都具备适当的保障措施。
图 21.1:大语言模型的性能与安全分析。(a) 大语言模型规模与其在各种攻击下的平均攻击成功率 (ASR) 之间的关系。数据来源于一项评估大语言模型对抗攻击鲁棒性的研究实验结果 [295]。(b) 大语言模型能力与其在各种攻击下的平均攻击成功率 (ASR) 之间的关系。大语言模型能力数据来源于 Artificial Analysis 平台的大语言模型排行榜上的 Artificial Analysis Intelligence Index [1415]。© 跨多个基准测试任务的性能热力图。该图展示了一个热力图,说明了各种大语言模型在多个基准测试任务上的性能,包括 GPQA、MuSR、MATH、IFEval、MMLU-Pro 和 BBH,数据来源于 Hugging Face 的 Open LLM Leaderboard v2 [1416]。