基础智能体的进展与挑战第 18 章【智能体内在安全：对人工智能大脑的威胁】

第 18 章

智能体内在安全：对人工智能大脑的威胁

人工智能体（AI agent）的内在安全涉及智能体内部架构和功能中的漏洞。根据其性质，人工智能体由多个组件构成：一个中央“大脑”（大语言模型，LLM），以及用于感知和行动的辅助模块 [66]。虽然这种模块化设计支持复杂的推理和自主决策，但它也扩大了潜在的攻击面，使智能体暴露于各种内部漏洞，这些漏洞可能被对手利用 [1130]。

对智能体大脑——特别是大语言模型——的威胁尤其令人担忧，因为它们能直接影响智能体的决策、推理和规划能力。这些漏洞可能源于模型设计中的缺陷、对输入的误解，甚至是训练过程引入的弱点。有效的缓解策略对于确保这些智能体能够安全可靠地部署至关重要。

18.1 大语言模型的安全漏洞

作为智能体的核心决策组件，大语言模型极易受到一系列安全威胁的影响。其在推理和行动选择中的核心作用使其成为对手的有吸引力的目标。在人工智能体的背景下，大语言模型本身固有的漏洞通常会被放大，因为这些模型需要在动态的、真实世界的环境中运行，而对手可以在这些环境中利用其弱点 [1131, 1132]。

18.1.1 越狱攻击 (Jailbreak Attacks)

越狱攻击绕过嵌入在人工智能体中的安全防护措施，迫使其决策过程产生有害、不道德或有偏见的结果 [1233]。这些攻击利用了大语言模型在提供帮助和遵守安全约束之间的固有矛盾 [1134]。

形式化。为了形式化地描述越狱攻击带来的风险，我们分析了控制自回归大语言模型输出的概率分布。对于一个自回归大语言模型，给定输入序列 $\mathbf{x}_{1:n}$ ，生成输出序列 $\mathbf{y}=\mathbf{x}_{n+1:n+m}$ 的概率模型为：

$p(\mathbf{y}|\mathbf{x}_{1:n})=\prod_{i=1}^{m}p(\mathbf{x}_{n+i}|\mathbf{x}_{1:n+i-1})$

其中 $m$ 表示生成序列的总长度。越狱攻击通常涉及对输入序列引入细微的扰动，表示为 $\tilde{\mathbf{x}}_{1:n}$ ，这会误导模型产生偏离预期行为的输出。

越狱攻击的影响通过其对对齐奖励 $\mathcal{R}^{*}(\mathbf{y}|\mathbf{x}_{1:n},\mathcal{A})$ 的效果来评估，该奖励衡量模型的输出与一组人类定义的（表示为 $\mathcal{A}$ 的）安全或伦理准则的符合程度。对手的目标是最小化这个奖励，形式化表示为：

$\mathbf{y}^{\star}=\underset{\mathbf{y}}{\arg\operatorname*{min}}\mathcal{R}^{*}(\mathbf{y}|\tilde{\mathbf{x}}_{1:n},\mathcal{A}))$

图 18.1: 智能体内在安全：对大语言模型大脑的威胁。

其中 $\mathbf{y}^{\star}$ 是由扰动输入引起的最坏情况输出。相应的对抗性损失函数量化了生成此输出的可能性：

$\mathcal{L}^{a d v}(\tilde{\mathbf{x}}_{1:n})=-\log p(\mathbf{y}^{\star}|\tilde{\mathbf{x}}_{1:n}),\mathrm{~and~}\tilde{\mathbf{x}}_{1:n}=\operatorname*{argmin}_{\tilde{\mathbf{x}}_{1:n}\in\mathcal{T}(\hat{\mathbf{x}}_{1:n})}\mathcal{L}^{a d v}(\tilde{\mathbf{x}}_{1:n})$

其中 $p(\mathbf{y}^{\star}|\tilde{\mathbf{x}}_{1:n})$ 表示分配给越狱输出的概率， $\mathcal{T}(\hat{\mathbf{x}}_{1:n})$ 是可能的越狱指令的分布或集合。

图 18.2: 白盒和黑盒越狱方法的图示：(1) 白盒：对手可以访问智能体的内部信息（例如，梯度、注意力、logits），允许进行精确的操作，如对抗性后缀优化。(2) 黑盒：对手仅依赖于输入-输出交互。关键方法包括自动越狱提示生成，以及利用遗传算法或大语言模型作为生成器来创建有效的攻击。

如图 18.2 所示，根据对手对模型内部参数的访问权限，越狱攻击可大致分为白盒和黑盒方法。(1) 白盒越狱：这些攻击假设对手完全访问模型的内部信息，如权重、梯度、注意力机制和 logits。这使得精确的对抗性操纵成为可能，通常通过基于梯度的优化技术实现。(2) 黑盒越狱：相反，黑盒攻击不需要访问内部模型参数。它们仅依赖于观察输入-输出交互，这使得它们更适用于模型内部结构不可访问的现实世界场景。

白盒越狱。白盒攻击利用对人工智能体内部参数（如模型权重和注意力机制）的访问权限，实现精确操控。该领域的早期工作侧重于基于梯度的优化技术 [1133]，例如贪婪坐标梯度（Greedy Coordinate Gradient, GCG）攻击 [1134]，该攻击能制作出可在各种模型中诱发有害输出的对抗性后缀。后续研究在此基础上进行了扩展，探索了对 GCG 的改进。例如，引入动量以提升攻击性能，如 MAC 方法 [1135]；以及提出改进的越狱优化技术，如 I-GCG [1136]。除了提示优化，研究人员还研究了操纵大语言模型其他内部组件的方法。类似地，操纵句末 MLP 的重新加权已被证明可以越狱指令微调的大语言模型 [1137]。其他方法包括利用对模型内部表示的访问权限的攻击，例如通过表示工程实现越狱（Jailbreak via Representation Engineering, JRE）[1138]，该方法操纵模型的内部表示以实现越狱目标；以及 DROJ [1139] 攻击，它使用提示驱动的方法来操纵模型的内部状态。AutoDAN [1140] 自动化了隐蔽越狱提示的生成。POEX [1141] 提出了第一个针对具身人工智能体的越狱框架，揭示了现实世界的危害，突显了可扩展和适应性强的白盒攻击的潜力。

黑盒越狱。与白盒攻击不同，黑盒越狱在不了解智能体内部知识的情况下进行操作，仅依赖于输入-输出交互。提示工程是一种关键方法，通过精心设计的提示来利用模型的响应生成能力并绕过其安全机制 [1142]。这些提示通常利用角色扮演、场景模拟或引入语言歧义等技术来诱使模型生成有害内容 [1143]。此外，自动提示生成方法已经出现，采用遗传算法或模糊测试等算法系统地发现有效的越狱提示 [1234]。此外，多轮攻击利用大语言模型的对话能力，通过一系列精心设计的提示逐步将对话引向不安全的领域 [1146]。其他值得注意的方法包括利用模型对特定类型密码提示的敏感性 [1144]，以及利用多模态输入（如图像）来触发意外行为并绕过安全过滤器 [1145, 1147, 1148]。AutoDAN [1140] 使用分层遗传算法自动为对齐的大语言模型生成隐蔽的、语义上有意义的越狱提示。POEX [1141] 也展示了将白盒优化的越狱提示迁移到黑盒大语言模型的可行性。

缓解措施。防御多样化且不断演变的越狱攻击需要多方面的方法。系统级防御提供了一个有前景的途径，侧重于在大语言模型周围创建一个安全的环境，而不仅仅是依赖于加固模型本身。一个关键策略是输入净化和过滤，即在传入的提示被大语言模型处理之前对其进行分析和潜在修改。这可以涉及检测和中和恶意模式 [1235]，或重写提示以移除潜在有害元素 [1236]。另一个关键方面是输出监控和异常检测，即审查大语言模型的响应是否存在不安全或意外内容。这可以涉及使用单独的模型来评估生成文本的安全性 [1237]，或采用统计方法来检测与预期行为的偏差。多智能体辩论提供了一种系统级解决方案，通过雇佣多个AI智能体来审议和批判彼此的输出，降低单个受损智能体成功执行越狱的可能性 [985]。形式语言约束，例如上下文无关文法（CFGs）施加的约束，提供了一种强大的方式来限制大语言模型的输出空间，确保它只能生成符合预定义安全行动集合的响应 [1238]。此外，可以实施系统级监控来跟踪大语言模型部署的整体行为，检测可能表明正在进行攻击的异常活动模式。这可以包括监控 API 调用、资源使用和其他系统日志。最后，对抗性训练虽然主要是一种以模型为中心的防御措施，但可以通过持续使用通过系统监控和红队演练发现的新对抗性样本来更新模型，从而整合到系统级防御策略中 [1239]。这些系统级防御措施的结合，加上对模型鲁棒性的持续研究，创建了一个更能抵御持续存在的越狱攻击威胁的生态系统。

18.1.2 提示注入攻击 (Prompt Injection Attacks)

提示注入攻击通过在输入提示中嵌入恶意指令来操纵大语言模型的行为，这会劫持模型预期的功能并将其重定向以执行攻击者期望的操作 [1130]。与绕过安全准则的越狱不同，提示注入利用了模型无法区分原始上下文和外部附加指令的弱点。文本输入的开放性、缺乏健壮的过滤机制以及假设所有输入都是可信的，加剧了这种脆弱性，使得大语言模型特别容易受到对抗性内容的影响 [1149]。即使是微小的恶意修改也可能显著改变生成的输出。

形式化。在提示注入中，对手将恶意提示组件附加或嵌入到原始输入中，从而劫持模型预期的行为。设原始输入序列为 $\mathbf{x}_{1:n}$ ，设 $\mathbf{p}$ 表示要注入的对抗性提示。有效的（注入后的）输入变为： $\mathbf{x}^{\prime}=\mathbf{x}_{1:n}\oplus\mathbf{p}$ ，其中运算符 $\oplus$ 表示将恶意提示与原始输入进行连接或整合。然后，在注入提示下的自回归生成过程由下式给出：

$p(\mathbf{y}|\mathbf{x}^{\prime})=\prod_{i=1}^{m}p(\mathbf{y}_{i}\mid\mathbf{x}_{1:n+i-1}^{\prime})$

假设对齐奖励 $\mathcal{R}^{*}(\cdot,\mathcal{A})$ 衡量输出在多大程度上遵守人类定义的（表示为 $\mathcal{A}$ 的）安全或伦理准则集合，对手的目标是强制模型生成一个最小化此奖励的输出：

$\mathbf{y}^{\star}=\underset{\mathbf{y}}{\arg\operatorname*{min}}\ \mathcal{R}^{*}\left(\mathbf{y}\mid\mathbf{x}_{1:n}\oplus\mathbf{p},\mathcal{A}\right).$

相应地，损失函数定义为：

$\begin{array}{r}{\mathcal{L}^{i n j e c t}(\mathbf{p})=-\log p\big(\mathbf{y}^{\star}\mid\mathbf{x}_{1:n}\oplus\mathbf{p}\big).}\end{array}$

然后通过求解以下问题获得最优提示：

$\mathbf{p}^{\star}=\underset{\mathbf{p}\in\mathcal{P}}{\arg\operatorname*{min}}\ \mathcal{L}^{i n j e c t}(\mathbf{p})$

其中 $\mathcal{P}$ 表示可行的提示注入集合。这个形式化描述了输入提示中的微小修改如何导致生成输出的显著偏差。

如图 18.3 所示，根据对抗性指令的引入方式，提示注入攻击可大致分为直接攻击和间接攻击。(1) 直接提示注入涉及显式修改输入提示以操纵大语言模型的行为。(2) 间接提示注入利用外部内容（如网页或检索到的文档）来嵌入恶意指令，模型在没有用户明确输入的情况下处理这些指令。

直接提示注入。这些针对人工智能体的攻击涉及对手直接修改输入提示以操纵智能体的行为。早期的工作确立了此类攻击的可行性，证明了精心设计的提示可以诱使智能体偏离其预期任务 [1149]。随后的研究探索了这些攻击的自动化，揭示了广泛利用的可能性 [1150, 1151]。其他工作研究了对多模态大语言模型的攻击，证明了处理文本和图像的模型中存在的漏洞 [1153]。这些研究共同突显了直接提示注入不断演变的威胁格局，从最初的概念验证发展到可能危及人工智能体完整性和安全的复杂攻击。其他工作研究了对多模态大语言模型的攻击，展示了处理文本和图像的模型中的漏洞 [1154]。像 Debenedetti 等人的“LLM CTF 竞赛”[1155] 和“HackAPrompt”[1156] 等竞赛也通过提供数据集和基准，为理解这些漏洞做出了贡献。这些研究共同地从最初的概念验证发展到能够危及人工智能体完整性和安全的复杂攻击。

图 18.3: 直接和间接提示注入方法的图示：(1) 直接：对手直接用恶意指令操纵智能体的输入提示，实现对智能体行为的即时控制。(2) 间接：对手将恶意指令嵌入智能体访问的外部内容中，利用智能体的检索机制间接影响其行为。

间接提示注入。这些攻击代表了一种更隐蔽的威胁，其中恶意指令被嵌入到人工智能体检索和处理的外部内容中。这种形式的攻击利用了智能体与外部数据源交互的能力，在没有用户直接输入的情况下引入恶意代码。Greshake 等人 [1149] 是最早强调这种漏洞的研究者之一，他们展示了现实世界中集成了大语言模型的应用程序如何通过从网络获取的内容而被攻破。这在检索增强生成（Retrieval-Augmented Generation, RAG）系统的背景下得到了进一步探讨 [719]，研究人员展示了攻击者可以通过操纵检索到的内容来“劫持 RAG”（HijackRAG），从而注入恶意提示 [1157]。最近，TPIA [1240] 提出了一种更具威胁性的间接注入攻击范式，用最少的注入内容实现复杂的恶意目标，突显了此类攻击的重大威胁。类似地，“后门检索器”（Backdoored Retrievers）的概念被提出，即检索机制本身被攻破以向大语言模型传递有毒内容 [1158]。专门针对人工智能体的研究探索了间接注入如何被用于“行为劫持”（Action Hijacking），即根据处理的受损数据操纵智能体执行非预期行为 [1152]。“提示感染”（Prompt Infection）展示了一个受损智能体可以将恶意提示注入到多智能体系统中的其他智能体，突显了互联大语言模型部署中的级联风险 [1159]。这些研究强调了人们对间接提示注入作为针对人工智能体的强效攻击向量日益增长的担忧，尤其是在这些智能体与外部数据源日益集成的情况下。其他工作，如“针对大语言模型的对抗性 SEO”（Adversarial SEO for LLMs）[1160]，突显了操纵搜索引擎结果以注入提示的可能性。

缓解措施。应对提示注入攻击的威胁，特别是在人工智能体的背景下，催生了各种防御机制的发展。一种早期的方法是使用基于嵌入的分类器来检测提示注入攻击，通过分析输入的语义特征 [1241]。另一个有前景的方向是“StruQ”方法，它侧重于将提示重写为结构化查询，以降低注入风险 [1242]。“任务护盾”（The Task Shield）代表了一种系统级防御，强制执行任务对齐，确保智能体即使面对潜在的恶意输入也能坚持其预期目标 [1243]。“注意力追踪器”（The Attention Tracker）提出监控模型的注意力模式以检测指示提示注入尝试的异常 [1244]。其他工作建议使用已知的攻击方法来主动识别和中和恶意提示 [1245]。这些防御措施为保护人工智能体免受提示注入攻击提供了有价值的工具，在现实世界部署中提供了有效性和实用性之间的平衡。

18.1.3 幻觉风险 (Hallucination Risks)

幻觉（Hallucination）指的是大语言模型倾向于生成事实不正确、无意义或未基于所提供上下文的输出 [1161]。虽然不总是恶意的，但幻觉会破坏智能体的可靠性并导致有害后果 [1163]。如图 18.4 所示，幻觉产生于 (1) 知识冲突，即输出与既定事实相矛盾；以及 (2) 上下文冲突，即与所提供上下文的不一致导致矛盾。

形式化。考虑一个输入序列 $\mathbf{x}_{1:n}$ ，其中每个标记（token）被嵌入到一个 $d_{e}$ 维空间中，表示为 $e_{x_{i}}\in\mathbb{R}^{d_{e}}$ 。标记 $i$ 和 $j$ 之间的注意力分数计算如下：

$A_{i j}=\frac{\exp\left((\mathrm{W}_{Q}e_{x_{i}})^{\mathrm{T}}(\mathrm{W}_{K}e_{x_{j}})\right)}{\sum_{t=1}^{n}\exp\left((\mathrm{W}_{Q}e_{x_{i}})^{\mathrm{T}}(\mathrm{W}_{K}e_{x_{t}})\right)}$

标记 $i$ 的上下文表示由下式给出： $\begin{array}{r}{o_{i}=\sum_{j=1}^{n}A_{i j}\cdot(\mathrm{W}_{V}e_{x_{j}}).\mathrm{W}_{Q},\mathrm{W}_{K}\in\mathbb{R}^{d_{e}\times d_{k}}}\end{array}$ 且 $\mathrm{W}_{V}\in$ $\mathbb{R}^{d_{e}\times d_{v}}$ 分别是查询（query）、键（key）和值（value）的投影矩阵。

假设每个输入嵌入被一个向量 $\delta_{x_{i}}$ （满足 $\|\delta_{x_{i}}\|\leq\epsilon$ ）扰动，得到扰动后的嵌入 $\tilde{e}_{x_{i}}=e_{x_{i}}+\delta_{x_{i}}$ 。扰动下的注意力分数变为：

$A_{i j}^{\Delta}=\frac{\exp\left((\mathrm{W}_{Q}\tilde{e}_{x_{i}})^{\mathrm{T}}(\mathrm{W}_{K}e_{x_{j}})\right)}{\sum_{t=1}^{n}\exp\left((\mathrm{W}_{Q}\tilde{e}_{x_{i}})^{\mathrm{T}}(\mathrm{W}_{K}e_{x_{t}})\right)}$

更新后的上下文表示为： $\begin{array}{r}{\tilde{o}_{i}\ =\ \sum_{j=1}^{n}A_{i j}^{\Delta}\cdot(\mathrm{W}_{V}e_{x_{j}})}\end{array}$ 。为了量化由扰动引起的内部表示偏差，使用幻觉度量：

$\mathcal{H}=\sum_{i=1}^{n}\|\widetilde{o}_{i}-o_{i}\|^{2}.$

较高的 $\mathcal{H}$ 值表明注意力分布——因而上下文表示——已被显著改变。这种偏差可能导致自回归解码过程中错误的标记预测，从而增加产生幻觉输出的可能性。

图 18.4: 知识冲突和上下文冲突幻觉的图示：(1) 知识冲突：模型对同一事实查询产生矛盾的响应，生成与既定知识不一致的信息（例如，关于选举获胜者的矛盾陈述）。(2) 上下文冲突：模型误解上下文信息，例如图像描述，引入了无根据的细节（例如，在一个没有冲浪板的海滩场景中错误地识别出冲浪板）。

知识冲突幻觉。当智能体生成的信息与其已建立的事实或其内部知识库相矛盾时，就会发生这种情况，无论在特定任务期间是否提供了任何外部上下文 [1161]。本质上，即使在仅依赖其预训练知识的“闭卷”（closed-book）设置中，智能体的响应也与其“应该知道”的内容不一致 [1162]。这些幻觉，如 [1246] 中所示的知识冲突，对人工智能体的可靠性和可信度构成了严重威胁，因为它们可能导致错误的决策、错误信息以及现实基础的根本缺失 [1163]。例如，一个负责回答常识问题的智能体可能会错误地陈述某个历史事件发生的年份，或者捏造关于某个科学概念的细节，这些都源于其有缺陷的内部理解 [1164]。这个问题在专业领域尤其严重，领域特定的不准确性可能会产生重大后果，例如在金融领域 [1165]。在多智能体场景中，这些知识冲突幻觉可能会被放大，导致级联错误和协作任务的失败 [626]。核心问题在于智能体在推理过程中如何存储、处理和检索信息，其掌握和维持事实一致性的能力存在固有局限性 [1166]。生成不正确或捏造信息的可能性破坏了这些智能体的基础，限制了它们作为可靠和可信工具发挥作用的能力 [1167]。

上下文冲突幻觉。当智能体的输出与推理期间提供的特定上下文（如文档、图像或一组指令）相矛盾或不受其支持时，就会发生这种情况 [1168]。在这些“开卷”（open-book）设置中，智能体实质上误解或捏造了与给定上下文相关的信息，导致其输出脱离了它本应处理的即时现实 [1169]。这可以以多种方式表现出来，包括生成添加了源文本中不存在的细节的摘要、错误识别图像中的对象，或未能准确遵循指令 [1170]。对于具备视觉能力的智能体，这可能导致对象幻觉，即视觉输入被根本性地误解，在机器人或自动驾驶等应用中构成重大风险 [1171, 1172]。此外，研究表明，大语言模型很容易被上下文中提供的不真实或矛盾的信息误导，导致它们生成与用户错误陈述一致的输出，或基于错误信息表现出有缺陷的推理 [1173]。这些上下文冲突幻觉对人工智能体在现实世界场景中的部署构成了严峻挑战，因为它们表明了准确处理和响应上下文信息的基本能力缺失 [1174]。误解所提供上下文的可能性可能导致不恰当、不安全或仅仅是错误的行为，从而破坏智能体在动态环境中有效运作的能力 [1175]。

缓解措施。研究人员正在积极开发以无需训练（training-free）的方式减轻人工智能体幻觉的方法 [1247]。一个突出的策略是 RAG，它涉及将智能体的响应建立在外部知识源的基础上 [334]。通过从数据库或网络检索相关信息，智能体可以根据可信数据验证其输出，减少对可能有缺陷的内部知识的依赖 [1248]。另一个强大的方法是利用不确定性估计，即智能体量化其对其输出的置信度 [1249]。通过在不确定性高时放弃响应，智能体可以显著减少幻觉内容的生成 [1250]。其他方法，如使用生成的文本并应用概念提取，也在检测和减轻幻觉方面显示出前景，且无需重新训练模型。Yin 等人 [1251] 的工作也显示出在无需模型再训练的情况下检测和减轻幻觉的前景。这些无需训练的技术对于确保人工智能体能够在广泛的应用中安全可靠地部署至关重要。

18.1.4 不对齐问题 (Misalignment Issues)

人工智能体中的不对齐（Misalignment）指的是智能体的行为偏离其开发者或用户的预期目标和价值观的情况 [1252]。这可能表现为有偏见、有毒或其他有害的输出，即使没有明确的提示 [1253]。如图 18.5 所示，不对齐可大致分为 (1) 目标误导的不对齐攻击和 (2) 能力滥用的不对齐攻击。前者发生在智能体学习或编程的目标偏离预期目标时，导致非预期但系统性的失败，例如规范博弈（specification gaming）或代理目标优化。后者涉及利用智能体的能力达到有害目的，通常是由于其设计中的漏洞、防护措施不足或对抗性操纵。

形式化。设 $\mathcal{R}^{*}(\mathbf{y}\mid\mathbf{x},\mathcal{A})$ 表示给定输入 x 的输出 y 的理想对齐奖励——即反映完全遵守安全和伦理规范的奖励——并设 $\mathcal{R}(\mathbf{y}\mid\mathbf{x},\mathcal{A})$ 为从模型观察到的实际奖励。不对齐程度可以通过绝对差异来量化：

$\begin{array}{r}{\Delta_{\mathrm{align}}(\mathbf{y},\mathbf{x})=\left|\mathcal{R}^{*}(\mathbf{y}\mid\mathbf{x},\boldsymbol{A})-\mathcal{R}(\mathbf{y}\mid\mathbf{x},\boldsymbol{A})\right|.}\end{array}$

理想情况下，模型应生成输出：

$\mathbf{y}^{\star}=\underset{\mathbf{y}}{\arg\operatorname*{max}}\ \mathcal{R}^{*}(\mathbf{y}\mid\mathbf{x},\mathcal{A}).$

由于不对齐，实际输出 y 可能不同。为了将这种偏差纳入学习或评估过程，可以定义一个不对齐损失：

$\begin{array}{r}{\mathcal{L}^{m i s a l i g n}(\mathbf{y},\mathbf{x})=\lambda\cdot\Delta_{\mathrm{align}}(\mathbf{y},\mathbf{x})}\end{array}$

其中 $\lambda$ 是一个权衡参数，用于调整对齐相对于其他因素（例如，流畅性或任务性能）的重要性。

目标误导的不对齐。当智能体学习或编程的目标偏离预期目标时，就会发生这种情况，导致不期望的行为。一个根本性的挑战是难以精确定义智能体能够理解并可靠执行的复杂、真实世界的目标，尤其是在动态环境中 [1176]。早期的研究表明，大语言模型表现出“规范博弈”，即它们利用指令中的漏洞以非预期的方式实现目标，就像一个被要求打扫房间的智能体只是把所有东西都扔进壁橱里 [1177]。随着大语言模型的发展，出现了更微妙的形式，例如追求更容易实现但与预期目标不同的代理目标 [1178]。人工智能体与外部世界交互的能力放大了这些风险。例如，一个智能体可能优先考虑参与度而非准确性，生成误导性信息以引发强烈反应 [1179]。将复杂的人类价值观转化为机器可理解的目标仍然是一个重大障碍 [1176]。此外，微调可能会无意中损害甚至适得其反地影响安全对齐工作 [1180]，并且在智能体难以适应不断变化的社会规范的动态环境中，目标不对齐可能会恶化 [921]。最后，这种不对齐会对模型合并的效果产生负面影响 [1181]。

图 18.5: 目标误导和能力滥用不对齐的图示：(1) 目标误导的不对齐：发生在智能体学习或编程的目标偏离预期目标时，导致非预期行为。(2) 能力滥用的不对齐：发生在智能体的能力被用于有害目的时，即使没有恶意意图。

能力滥用的不对齐。这种类型的不对齐发生在智能体的能力被利用或导向有害目的时，即使智能体本身缺乏恶意意图。这可能源于智能体设计中的漏洞、防护措施不足或恶意行为者的故意操纵。与目标不对齐不同，智能体的核心目标可能是良性的，但其能力却被以有害的方式利用。早期的研究表明，大语言模型可以通过对抗性提示被操纵以生成有害内容 [1182]。将大语言模型集成到智能体架构中扩大了滥用的可能性，安全对齐被证明是脆弱且容易受到攻击的 [1183]。与现实世界互动的自主智能体尤其脆弱；例如，一个家庭自动化智能体可能被操纵以造成损害。一个善意的智能体也可能被指示执行有害任务，如生成错误信息或进行网络攻击 [1182]。恶意行为者可以利用人工智能体的广泛能力达到有害目的，例如编写钓鱼邮件或创建有害代码 [1176]。能力滥用也可能源于开发者缺乏远见，部署的智能体没有足够的防护措施，导致意外伤害。例如，如果智能体的访问权限没有得到适当限制，它可能会无意中泄露敏感数据。微调攻击会进一步危及安全 [1184]，虽然存在解决方案，但它们也有局限性 [1185]。

缓解措施。解决不对齐问题需要多方面的方法。虽然重新训练很常见，但无需训练的缓解方法提供了一个有价值的选择，特别是对于已部署的系统。这些技术在不修改底层模型的情况下指导智能体行为。“提示工程”涉及精心设计强调安全和伦理考虑的提示 [1254]。类似地，“安全层”方法可以提高大语言模型的安全对齐性 [1179]。“护栏”或外部安全过滤器根据预定义的规则或安全模型监控和修改智能体输出。“解码时对齐”调整智能体的输出生成过程以偏向更安全的响应 [1255, 1256]。此外，一种名为“Lisa”的方法可用于确保推理过程中的安全对齐 [1257]。这些方法代表了朝着实现人工智能体对齐的实用、可扩展解决方案迈出的重要一步。

18.1.5 投毒攻击 (Poisoning Attacks)

投毒攻击通过在训练或运行时引入恶意数据来破坏大语言模型，从而 subtly 改变其行为。这些攻击可能造成长期损害，因为它们破坏了大语言模型的基础过程，使其难以检测。

形式化。投毒攻击通过污染其训练数据来损害大语言模型的完整性。设原始的干净训练数据集为 $\mathcal{D}=\{(\mathbf{x}_{i},\mathbf{y}_{i})\}_{i=1}^{N}$ 。对手向一部分数据引入扰动 $\delta_{i}$ ，得到有毒数据集 $\tilde{\mathcal{D}}=\{(\mathbf{x}_{i}+\delta_{i},\mathbf{y}_{i})\}_{i=1}^{N}$ 。

在训练期间，模型参数 $\theta$ 通过在有毒数据集上最小化损失函数 $\mathcal{L}$ 来学习：

$\theta^{\star}=\arg\operatorname*{min}_{\theta}\mathcal{L}\big(\tilde{D};\theta\big).$

投毒的影响通过有毒模型参数 $\theta^{\star}$ 与使用干净数据集 $\mathcal{D}$ 获得的干净参数 $\theta_{\mathrm{clean}}$ 之间的偏差来捕捉： $\Delta_{\theta}^{\mathrm{~~}}=\lVert\theta^{\star}-\theta_{\mathrm{clean}}\rVert$ 。在后门注入（backdoor injection）——一种特殊形式的投毒攻击——的情况下，对手还在输入中嵌入一个特定的触发器 $t$ 。当触发器存在时，模型被操纵以产生预定的恶意输出。这种攻击的成功可以通过以下方式量化：

$\mathcal{B}(t)=\mathbb{E}_{\mathbf{x}\sim\mathcal{X}}\left[\mathbb{I}\{f(\mathbf{x}\oplus t;\theta^{\star})\in\mathcal{V}_{\mathrm{malicious}}\}\right]$

其中 $\mathbb{I}\{\cdot\}$ 是指示函数， $\mathcal{V}_{\mathrm{malicious}}$ 表示不期望的输出集合。

如图 18.6 所示，投毒攻击可分为 (1) 模型投毒 (model poisoning)，(2) 数据投毒 (data poisoning)，以及 (3) 后门注入 (backdoor injection)，每种都对人工智能体的完整性和安全构成重大威胁。模型投毒涉及直接操纵内部参数，从根本上改变模型的行为。数据投毒破坏用于训练的数据集，由于更改融入学习过程，检测更具挑战性。后门注入通过嵌入仅在特定条件下激活的隐藏触发器，进一步使防御策略复杂化，允许对手在不被立即检测到的情况下利用模型。

模型投毒。这种技术直接操纵人工智能体的内部参数，例如权重或偏置，导致不正确的输出或意外行为 [1186]，这使得攻击者能够引入特定的漏洞，这些漏洞在被特定输入触发之前保持休眠状态 [1187]。像 Low-Rank Adaptation (LoRA) 这样用于高效更新的技术，也可能被利用来注入恶意更改 [1188]，这在参数高效微调 (parameter-efficient fine-tuning, PEFT) 中也有发现 [1189]。研究表明，被投毒的模型可能在代码中引入安全缺陷 [1190]，并可能与其他被投毒的智能体协作，放大攻击的影响 [1191]。其他研究探讨了被投毒模型生成有害内容或操纵系统功能的潜力 [1192]。

图 18.6: 模型投毒和数据投毒的图示：(1) 模型投毒：攻击者通过操纵 transformer 解码器中的键值表示将后门注入模型，嵌入隐藏的触发器-目标映射。(2) 数据投毒：攻击者通过对抗性触发器优化操纵训练数据，注入导致模型学习隐藏后门的有毒样本，使其易受恶意触发器攻击。当出现特定的触发短语时，被投毒的模型会生成偏离其正常行为的恶意响应，覆盖其良性输出。

数据投毒。数据投毒攻击采取不同的路径，目标是大语言模型训练所使用的数据 [1193]。这种攻击特别隐蔽，因为它在数据层面操作，比直接的模型操纵更难检测。例如，对智能体使用的知识库进行投毒可能导致不正确或有偏见的输出 [1194]。类似地，破坏 RAG 系统中的检索机制会显著降低智能体性能 [1195]。研究人员开发了基准来评估大语言模型对各种数据投毒策略的敏感性 [1196]。此外，即使用户反馈，本意是改善模型性能，也可能被操纵以引入偏见 [1197]。研究还探讨了模型规模与其对数据投毒的脆弱性之间的关系，发现表明更大的模型可能更容易受到攻击 [1198]。其他值得注意的研究调查了令牌限制下的数据投毒、人类无法察觉的数据投毒以及持续预训练投毒的影响 [1199]。研究还包括使用有毒偏好数据对 RLHF 模型进行投毒 [1200]。这些研究共同展示了针对人工智能体的数据投毒攻击的多样性和不断演变的性质。

后门注入。后门注入代表一种特定类型的投毒攻击，其特点是训练大语言模型对特定触发器做出反应 [1258]。这些触发器仅在满足特定条件时才导致智能体行为恶意，使得它们在正常操作下难以检测。对于与物理世界交互的智能体来说，风险尤其显著，因为后门可能在现实世界场景中危及其行为。一些后门被设计成即使在安全训练后也能保持隐藏，使其特别危险 [1201]。后门攻击也已在网络智能体上得到证明，其中可以通过有毒的网络内容进行操纵 [1202]。此外，研究已经检验了后门对决策过程的影响，显示它们如何导致不正确或有害的决策 [1203]。其他研究提供了对各种后门攻击方法的详细分析，包括那些利用模型生成的解释、跨语言触发器和思维链提示的方法 [1204]。额外的调查探讨了后门的持久性、虚拟提示注入的使用以及缓解这些威胁的挑战 [1205]。这些工作突显了后门攻击的复杂性，并强调了在人工智能体安全领域攻击者与防御者之间持续的军备竞赛。

缓解措施。开发针对投毒攻击的无需训练的缓解策略侧重于在有毒数据被用于训练之前检测并过滤掉它们。RAG 投毒攻击检测（RAG Poisoning Attack Detection）提出使用激活聚类来识别 RAG 系统检索到的数据中可能指示投毒的异常 [1259]。BEAT [1260] 提出了第一个在 LLMaaS 设置下针对后门不对齐攻击的黑盒后门输入检测方法，利用了探针连接效应（probe concatenate effect）。类似地，任务漂移检测（Task Drift Detection）探索使用激活模式来检测可能由投毒引起的模型行为偏差 [1261]。Li 等人 [1262] 涉及利用模型自身的推理过程来识别和中和后门触发器，例如 Chain-of-Scrutiny 描述的多步验证过程，以检测和过滤掉有毒输出。测试时后门缓解（Test-time Backdoor Mitigation）提出在推理过程中使用精心制作的演示来引导模型远离有毒响应，这是一种适用于黑盒大语言模型的技术 [1263, 1264]。Graceful Filtering 开发了一种在推理期间过滤掉后门样本的方法，无需重新训练模型 [1265]。BARBIE 利用一种称为相对竞争分数（Relative Competition Score, RCS）的新度量来量化潜在表示的主导地位，即使面对操纵潜在可分性的自适应攻击，也能实现鲁棒检测 [1266]。未来的一个方向是探索外部知识整合和模型组合以增强大语言模型的安全性。

18.2 隐私担忧

人工智能体对隐私的威胁主要源于它们对广泛数据集和实时用户交互的依赖，这引入了显著的隐私威胁。这些风险主要来自两个来源：训练数据推断（Training Data Inference），攻击者试图从智能体的训练数据中提取或推断敏感信息；以及交互数据推断（Interaction Data Inference），其中系统和用户提示容易受到泄露。缺乏有效的防护措施，这些威胁可能损害数据机密性，暴露专有的智能体知识，并违反隐私法规。

18.2.1 训练数据的推断

人工智能体从海量数据集中构建其知识，这使得它们容易受到暴露机密训练数据的攻击。如图 18.7 所示，这些攻击可大致分为两类：(1) 成员推断（Membership inference）和 (2) 数据提取（Data extraction）。

图 18.7: 成员推断和数据提取攻击方法的图示：(1) 成员推断：对手试图确定特定数据点是否被用于智能体的训练集，通常通过分析智能体置信度分数的细微变化。(2) 数据提取：对手旨在从智能体中恢复实际的训练数据样本，可能包括敏感信息，通过利用记忆模式和漏洞。

成员推断攻击。成员推断攻击试图确定特定数据点是否是人工智能体训练集的一部分。例如，攻击者可能试图验证患者的医疗记录是否包含在医疗保健聊天机器人的训练数据中。

设训练数据集为： $\mathcal{D}=\{(\mathbf{x}_{i},\mathbf{y}_{i})\}_{i=1}^{N}$ 。假设一个函数 $g(\mathbf{x};\theta)\in[0,1]$ 估计给定输入 $\mathbf{x}$ 被包含在 $\mathcal{D}$ 中的概率。对手可以通过检查 $g(\mathbf{x};\theta)>\eta$ 来推断成员身份，其中 $\eta$ 是预定阈值。 $g(\mathbf{x};\theta)$ 的高值表明模型很可能在训练期间记住了 $\mathbf{x}$ 。

MIA [1206] 的早期研究证明了这些攻击在机器学习模型中的可行性。Carlini 等人 [1207] 开发了一种使用“金丝雀”（canary）序列的“测试方法”，以量化神经网络无意中泄露其训练过的罕见、秘密信息的风险。最近的进展提高了攻击的有效性。例如，Choquette 等人 [1208] 利用仅标签（Label-only）成员推断攻击，利用线性探测和内部模型状态来提高推断准确性。PETAL [1267] 提出了第一个针对预训练大语言模型的仅标签成员推断攻击，通过利用令牌级语义相似性来近似输出概率。其他技术，如自提示校准（self-prompt calibration）[1209]，使这些攻击在现实世界部署中更加实用。MIA [1210] 开发了一种新的、更强大的攻击（LiRA）来测试“成员推断”，即某人能够弄清楚特定人员的数据是否被用于训练机器学习模型，即使他们只看到模型的预测。He 等人 [1268] 提出了一种计算高效的成员推断攻击，通过重新利用原始成员分数来减轻难度校准的误差，其性能与更复杂的攻击相当。此外，Hu 等人 [1211] 回顾并分类了现有关于机器学习模型成员推断攻击的研究，提供了对攻击和防御策略的见解。

数据提取攻击。与确认数据在训练中存在的成员推断不同，数据提取攻击试图从智能体中恢复实际的训练数据。这可能包括个人信息、受版权保护的材料或其他无意中包含在训练集中的敏感数据。对手试图通过求解以下问题来重构训练样本：

$\mathbf{x}^{\star}=\underset{\mathbf{x}\in\mathcal{X}}{\arg\operatorname*{max}}~p\big(\mathbf{x}~|~f(\mathbf{x};\theta)\big)$

其中 $f(\cdot;\theta)$ 表示给定输入 $\mathbf{x}$ 的模型响应，而 $p\big(\mathbf{x}\mid f(\mathbf{x};\theta)\big)$ 表示 $\mathbf{x}$ 已被记住的可能性。更高的可能性意味着敏感数据泄露的风险更大。

Carlini 等人 [1212] 的早期研究提供了基础证据，表明人工智能体在特定条件下可以“反刍”训练数据。随后的研究改进了提取技术，例如梯度引导攻击，提高了提取记忆序列的效率。其他方法，例如 Bai 等人 [1213] 的方法，利用提示操纵来触发意外的数据泄露。Ethicist [1214] 提出了一种有针对性的训练数据提取方法，使用损失平滑软提示和校准置信度估计，从给定特定前缀的预训练语言模型中恢复逐字后缀。模型反演攻击甚至允许攻击者从人工智能体的响应中重构大部分训练数据 [1215]。隐私风险也扩展到其他架构，如 BERT、Transformer-XL、XLNet、GPT、GPT-2、RoBERTa 和 XLM，这些在大语言模型架构中很常见 [1216]。Carlini 等人 [1217] 量化了模型大小、数据重复和提示上下文如何显著增加大语言模型记忆并可能被诱导泄露的训练数据量。Carlini 等人 [1218] 表明，仅使用其公共 API 就可以提取商业、黑盒语言模型的特定内部参数，这引发了对这些广泛使用的系统安全性的担忧。More 等人 [1219] 表明，现有方法低估了语言模型“提取攻击”的风险，因为现实世界的攻击者可以利用提示敏感性并访问多个模型版本来泄露显著更多的训练数据。Sakarvadia 等人 [1269] 提出了评估减轻记忆方法有效性的方法。

18.2.2 交互数据的推断

与传统软件不同，人工智能体由自然语言指令（称为提示）引导。如图 18.8 所示，这些提示可能被利用，要么通过 (1) 系统提示窃取，要么通过 (2) 用户提示窃取，导致安全和隐私泄露。

形式化。设 $\mathbf{p}_{s y s}$ 表示系统提示（定义智能体的内部指南）， $\mathbf{p}_{u s e r}$ 表示用户提示。在交互过程中，智能体根据这些隐藏的提示产生输出 $\mathbf{y}$ 。对手可能试图通过解决一个反演问题来重构这些提示：

$\mathbf{p}^{\star}=\underset{\mathbf{p}}{\arg\operatorname*{max}}~p\big(\mathbf{p}~|~\mathbf{y};\theta\big)$

其中 $p(\mathbf{p}\mid\mathbf{y};\theta)$ 表示观察到的输出 $\mathbf{y}$ 是由隐藏提示 $\mathbf{p}$ （系统或用户）引起的概率。通过优化方程 (18.17)，攻击者可以重构影响智能体行为的敏感上下文。

系统提示窃取。系统提示定义了人工智能体的角色、功能和行为约束。它们作为内部指南，规定了智能体如何与用户互动。窃取这些提示允许攻击者逆向工程智能体的逻辑、复制其功能或利用其弱点。早期的工作，如 [1221]，展示了提示窃取甚至适用于文本到图像生成系统的知识产权。虽然 Jiang 等人 [1222] 提出了保护技术，但新的攻击策略仍在不断涌现。Perez 等人 [1220] 证明了系统提示可以通过对抗性提示注入（例如使用分隔符或伪装命令）被攻破。时间侧信道攻击，例如 InputSnatch [1223]，揭示了大语言模型推理中的缓存技术创建了一个时间侧信道，允许攻击者重构用户的私密输入。Zhang 等人 [1224] 证明了生产环境中的大语言模型（例如 Claude、Bing Chat）的系统提示可以通过基于翻译的攻击和其他查询策略被提取，绕过输出过滤等防御措施，在 11 个模型上具有很高的成功率。Wen 等人 [1225] 分析了不同提示调整方法的安全和隐私影响，包括系统提示泄露的风险。Zhao 等人 [1226] 将安全和隐私分析确定为一个关键研究领域，涵盖了应用生态系统中潜在的威胁，如系统提示泄露。

图 18.8: 系统和用户提示窃取方法的图示：(1) 系统提示窃取：对手旨在提取智能体隐藏的、定义性的指令（系统提示），揭示其核心功能、角色和潜在漏洞。(2) 用户提示窃取：对手试图推断或直接恢复用户的输入提示，损害用户隐私并可能暴露提供给智能体的敏感信息。

用户提示窃取。除了系统提示，用户提示也很脆弱。攻击者可以推断或提取敏感的用户输入，损害隐私。如果用户向人工智能体查询机密的商业策略或个人医疗问题，攻击者可以从模型响应中重构这些输入。Yang 等人 [1227] 提出了一种提示反向窃取攻击（Prompt Reverse Stealing Attack, PRSA），表明攻击者可以通过分析智能体生成的响应来重构用户输入。Agrwal 等人 [1228] 证明了即使在多轮交互中，用户提示也可能被提取，突显了这种威胁的持续性。Agrwal 等人 [1229] 研究了黑盒语言模型中的提示泄露效应，揭示了用户提示可以从模型输出中推断出来。Liang 等人 [1230] 分析了为什么提示会在定制化大语言模型中泄露，为用户提示暴露背后的机制提供了见解。Hui 等人 [1231] 引入了 PLeak，一种旨在从大语言模型应用中提取用户提示的提示泄露攻击。Yona 等人 [1232] 探索了从混合专家模型（mixture-of-experts models）中窃取用户提示的方法，证明了这些高级架构的脆弱性。Zhang 等人 [849] 提出了通过反演大语言模型输出来提取提示的技术，展示了如何对模型响应进行逆向工程。

18.2.3 隐私威胁缓解

为了解决人工智能体中的隐私威胁，研究人员开发了隐私保护计算和机器遗忘技术来保护敏感数据而不损害其效用。差分隐私（Differential Privacy, DP）在训练过程或模型输出中引入精心校准的噪声，以防止推断出单个数据点 [1270]。DP 已成功应用于大语言模型的微调，采用了诸如梯度裁剪和在不同阶段（包括优化期间和用户级交互期间）注入噪声等技术 [1271]。另一个有前景的方向是联邦学习（Federated Learning, FL），例如，FICAL 是一种用于训练人工智能体的隐私保护 FL 方法，它传输汇总的知识而不是模型参数或原始数据，解决了通信和计算挑战 [1272]。最近的研究探索了基于 FL 的人工智能体微调，使得不同实体之间能够在不直接共享数据的情况下协作改进模型 [1273]。同态加密（Homomorphic Encryption, HE）也正在成为安全推理的强大工具，允许在加密数据上执行计算而无需解密 [1274]。为了使 HE 对人工智能体更实用，研究人员正在设计对加密友好的模型架构，以减少加密操作的计算开销 [1275]。对于基于硬件的解决方案，可信执行环境（Trusted Execution Environments, TEEs）提供了一个安全区域，计算可以在其中与系统其余部分隔离，保护敏感数据和模型参数 [1276]。类似地，安全多方计算（Secure Multi-Party Computation, MPC）允许多个实体在不泄露各自数据的情况下共同计算加密输入上的函数，为大语言模型操作提供了另一层安全保障 [1277]。另一个潜在的解决方案是通过将所有权信息嵌入私有数据中来主动追踪数据隐私泄露或版权侵权 [1278]。这可以通过引入后门 [1279]、独特的良性行为 [1280] 或可学习的外部水印涂层 [1281] 来实现。补充这些方法的是日益发展的机器遗忘（Machine Unlearning）领域，旨在从人工智能体的内存中移除特定的训练数据，有效地实现“被遗忘权” [1282, 1283]。最近的研究开发了针对大语言模型的特定遗忘技术，包括自适应提示调整和参数编辑，以选择性地擦除不需要的知识，同时最大限度地减少对模型性能的影响 [1284, 1285]。

尽管取得了这些进展，但在平衡隐私、性能和效率方面仍然存在挑战。持续的研究对于构建既强大又保护隐私的人工智能体以用于现实世界应用至关重要。

18.3 总结与讨论

以上各节详细阐述了针对人工智能体核心——“大脑”（大语言模型）——的一系列安全和隐私威胁。从越狱、提示注入到幻觉、不对齐和投毒攻击，很明显，大语言模型在决策中的核心作用使其成为对手的主要目标。本章反复出现的一个主题是强调无需训练（training-free）的缓解策略。提出的许多防御措施，例如针对越狱的输入净化和过滤 [1235, 1286]、针对幻觉的不确定性估计 [1249] 以及针对不对齐的安全层 [1179]，都至关重要，因为它们实用、可扩展、适应性强，并且通常与模型无关。重新训练大型模型成本高昂；无需训练的方法可以在部署后应用，并能灵活应对不断变化的威胁。

然而，纯粹的反应式方法是不够的。该领域越来越认识到需要本质上更安全的大语言模型。这种主动策略通过在基础层面解决漏洞来补充无需训练的方法。例如，模型投毒缓解措施，如 RAG 投毒攻击检测中的激活聚类 [1259]，不仅缓解了眼前的威胁，而且为设计更鲁棒的训练过程提供了信息。使用像 SafetyBench [1287] 和 SuperCLUE-Safety [1288] 这样的基准进行系统评估，为开发不易产生偏见和有害输出的模型提供了指导。诸如 RLHF [43, 12] 及其变体（如 Safe RLHF [1289]）等技术在训练期间直接塑造模型行为，在追求性能的同时优先考虑安全性 [1290]。提示工程 [1291, 1292] 和参数操纵 [1293] 增强了对对抗性攻击的鲁棒性，创建了本质上不易受到不对齐影响的模型。

重要的是，虽然“越狱”一词通常强调绕过安全防护措施，但其底层机制与更广泛的对抗性攻击具有很强的相似性：在这两种情况下，都是精心构造输入以诱导不期望的或有害的输出。然而，一个关键区别在于，典型机器学习环境中的对抗性攻击通常侧重于受严格约束（例如，小的 $l_{p}$ 范数）的最小或难以察觉的扰动，而越狱提示不必是对现有提示的“微小”更改。越狱可以大幅改变或扩展提示，对扰动的规模没有特别限制，只要它能绕过策略或安全防护即可。在特定条件下——例如当安全约束被表述为某种“决策边界”时——这两种攻击向量实际上变得等效。然而，在现实世界的大语言模型场景中，越狱输入的无约束性可能构成一种不同的、通常更广泛的实际威胁模型。随着大语言模型及其安全约束变得更加集成，这些范式可能会融合，突显了需要统一的防御策略来应对任何恶意构造的输入。

对抗性训练，最初作为一种越狱缓解技术提出 [1239]，体现了反应式和主动式方法之间的协同作用。持续暴露于对抗性样本可以提高内在鲁棒性 [1294]。类似地，最初为缓解隐私威胁而讨论的隐私保护技术，如差分隐私和联邦学习 [1270, 1295]，从根本上改变了训练过程，导致了更鲁棒和注重隐私的大语言模型大脑。