智体人工智能安全：威胁、防御、评估和未解决的挑战（上）

最新推荐文章于 2025-12-20 00:15:00 发布

原创最新推荐文章于 2025-12-20 00:15:00 发布 · 709 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #安全 #机器学习 #机器人 #深度学习

大模型同时被 3 个专栏收录

1003 篇文章

订阅专栏

智能体

790 篇文章

订阅专栏

机器学习

691 篇文章

订阅专栏

25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。

由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统，正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务，这带来新的、更显著的安全风险，这些风险既不同于传统的人工智能安全，也不同于传统的软件安全。本综述概述智体人工智能特有的威胁分类，回顾最新的基准测试和评估方法，并从技术和治理两个角度探讨防御策略。其综合当前的研究成果，并重点指出尚未解决的挑战，旨在支持开发安全设计智体系统。

人工智能（AI）已成为21世纪最具变革性的技术之一[1]。从早期的基于规则的专家系统[2]到现代深度学习架构[3]，人工智能的能力和应用范围都在稳步扩展。传统上，尤其是在过去十年中，人工智能在图像分类、语音识别、推荐系统和预测分析等特定任务的狭窄应用领域表现出色[4, 3]。这些系统通常在明确的边界内运行，并针对受限数据集进行了性能优化，但缺乏灵活适应其原始输入/输出设计之外的能力。

近年来，大语言模型（LLM）的出现，例如OpenAI的GPT[5, 6]和Meta的LLaMA[7]，标志着人工智能模型的范式转变。这些模型在庞大的文本语料库（现在甚至是多模态数据）上进行训练，展现出令人印象深刻的泛化能力，能够在广泛的领域内生成连贯且与上下文相关的响应[8, 9]。LLM推动了对话智体、代码生成、内容摘要和多模态推理等领域的突破[10-12]。此外，大多数LLM部署的设计使其保持被动状态：它们响应包含指令的输入提示并生成自然语言输出，但不会独立追求目标、维护记忆或在无人监督的情况下自主地与外部世界交互[13, 14]。

智体人工智能（Agentic AI）代表由LLM和其他生成式AI模型驱动 AI系统自然演进的下一个阶段。智体AI系统的特点是自主性、目标导向推理、规划能力，以及通过工具、API或机器人实体对数字或物理环境进行操作的能力[15, 16]。与静态LLM不同，智体系统能够维护持久记忆、进行跨时间思考、与其他智体协调，并动态适应不断变化的环境。这些能力使智体人工智能成为一个强大的通用自动化平台，而不是依赖持续的人工输入来完成任务的被动模型。

近期的框架加速了智体人工智能的普及应用。诸如 LangChain [17]、AutoGPT [18] 等工具生态系统以及多智体编排库为推理步骤的链接、长期上下文的存储和外部 API 的集成提供基础设施。这使得基于智体的架构能够被广大开发者和企业所采用。诸如 Voyager 等研究原型（它使智体能够在类似 Minecraft [19] 的复杂环境中自主探索和调整策略）以及在客户支持和数据分析领域的企业部署 [20] 都展现了智体系统处理传统人工智能以前无法胜任的多步骤和开放式任务的潜力。

鉴于智体AI在各个领域具有潜在的积极影响，这些系统正越来越多地应用于多种实际场景和应用中：
• 复杂工作流程的自动化：智体人工智能系统能够自主管理供应链流程，并根据动态数据源调整采购决策。例如，美国制造商 Toro 等公司已部署人工智能系统，用于分析关税政策、商品定价和经济信号，从而提出采购建议，最终只需操作员做出简单的接受决策即可 [21]。
• 提高生产力：智体人工智能编码智体在软件工程领域展现出巨大的潜力。例如，Cognition Labs 开发的人工智能软件工程师 Devin 已证明其能够在极少监督的情况下规划、编写代码、调试和部署软件。在实际问题解决基准测试中，它的性能显著优于早期系统，能够自主解决 13.86% 的任务，而之前的模型仅能解决 1.96% 的任务 [22]。
• 个性化支持：当配备记忆和自适应推理能力时，智体系统可以作为持久的数字管家，跟踪用户随时间推移的偏好。生成式智体的实验研究表明，人工智能系统可以模拟记忆驱动的、社会协调的行为，包括在交互式环境中自主组织社区活动[23]。
• 科学发现与研究：生成式智体架构通过规划和记忆扩展大语言模型，已被应用于假设生成、文献综合和实验设计。这一研究方向凸显智体AI在加速科学进步和拓展知识前沿方面的潜力[24, 25]。
• 协作与协调：多智体系统正被应用于分布式问题解决和集体决策。在工业领域，Ocado 使用大量协调机器人来管理杂货订单的履行，预计自动化订单的比例将从 40% 扩展到 80% [26]。在研究方面，诸如 AutoAgents 之类的框架展示如何在监督智体的领导下动态实例化和协调专业智体，以实现复杂的目标[27]。
• 与物理系统集成：在机器人和物联网系统中，智体人工智能正日益承担起控制设备和协调自主机器的重任。例如，亚马逊仓库中配备智体的机器人能够执行一系列任务，例如卸货、分拣和取货，所有这些都可以通过自然语言指令完成[28]。
• 革新医疗保健：智体人工智能正在通过自主个性化治疗、简化临床和行政工作流程以及增强患者支持来变革医疗保健。医疗保健AI智体[29-33]已被开发出来，可以持续监测患者的慢性病，实时调整护理策略，处理患者互动/随访，充当记录员以减轻临床医生的文档负担，并通过自主筛选加速药物研发。

显然，智体人工智能因其广泛的益处和革新应用的潜力，已引起社会各界的极大关注。各组织将此类系统视为提高效率和创新能力的关键推动因素，能够应对需要自适应推理、持续交互和多步骤执行的挑战。然而，与此同时，这些智体特性也带来了新的风险：自主性和持久性扩大了攻击面，工具集成加剧潜在的滥用风险，智体之间的协调引入在人类监督或单一模型下可能不存在的不可预测性。因此，安全性和可信度成为在社会应用中安全部署智体人工智能的必要前提。

威胁大致分为以下几类：（i）快速注入和越狱；（ii）自主网络攻击和工具滥用；（iii）多智体和协议级威胁；（iv）接口和环境风险；以及（v）治理和自主性问题。针对每一类威胁，讨论与特定问题场景相关的各种攻击，并提供更细致的子分类，如图所示。
请添加图片描述

提示注入与越狱

提示是指定人工智能智体行为方式的命令[56]。因此，对任何智体而言，主要的安全性威胁都来自提示本身。人工智能提示注入（PI）仍然是文献中最常被讨论的攻击，恶意指令会导致模型偏离预期行为[57, 58]。正如Beurer-Kellner[59]所指出的，当嵌入在LLM处理的内容中的恶意数据操纵模型行为以执行未经授权或非预期操作时，就会发生提示注入攻击。类似地，Lee[38]将提示注入描述为一种攻击，其中使用外部恶意指令来覆盖用户的请求，从而有效地使攻击者控制模型的输出。

直接和间接提示注入

提示注入主要有两种形式：直接提示注入和间接提示注入（如图所示）。直接提示注入 (DPI) 变体直接将恶意指令插入输入提示中，以操纵智体的行为 [60, 61]。如果攻击成功，其威力将极其强大。例如，攻击者可以利用直接提示注入来毒害客户支持聊天机器人，迫使其无视先前的指导原则，从内部数据源中提取敏感信息，甚至可能触发未经授权的操作（例如发送电子邮件），从而导致机密数据泄露 [60]。
请添加图片描述

间接提示注入 (IPI) 攻击则通过将恶意指令插入模型处理的外部数据中，使LLM偏离用户提供的指令 [62, 37]。注：对于 DPI 攻击，最终用户是攻击者；而对于 IPI 攻击，智体处理的第三方信息拥有者或提供者是攻击者 [59]。自适应攻击是指攻击者操纵外部内容，已被证明能够以 50% 的成功率突破八种针对 IPI 攻击设计的防御机制 [63]。这类攻击通常涉及在指令前后插入对抗字符串，以操纵 LLM 智体的行为。

针对 IPI 攻击，人们提出多种不同的攻击策略。贪婪协同梯度 (GCG) [64] 最初用于越狱攻击，现已被应用于 IPI 攻击，其方法是生成包含对抗字符串的肯定前缀，从而诱导智体输出恶意内容 [65]。类似地，两-阶段 GCG [66] 训练一个两部分组成的对抗字符串，即使经过改写仍然有效，从而绕过基于改写检测的防御机制。最后，由于上述攻击通常会生成容易被困惑度防御机制检测到的无意义字符串，AutoDAN [67] 通过增强对抗字符串的语义质量来降低其可检测性。

注：IPI攻击利用智体对外部工具和信息源的依赖性，将有害任务封装在看似无害的资源中，例如数据库、API或网页[68-71]。这些编码指令可以迫使智体执行非预期操作，例如操纵界面或调用非法工具，而这些操作通常伪装成合法任务。这种攻击比直接注入更具危害性，因为注入的提示可以看起来像合法的智体指令，难以与常规进程区分开来[72]。例如，针对Web智体的攻击会操纵HTML结构或可访问性树来重定向智体操作，而针对计算机智体的攻击则可以利用界面交互来获得持久控制权[71, 73]。更棘手的是，成功的IPI攻击通常会利用用户输入和后续工具调用之间的解耦，这如CSS混淆和隐藏HTML元素等策略如何进一步增强隐蔽性，使攻击对用户不可见。

有意/无意提示注入

提示注入威胁可以根据其是由攻击者故意引入还是在良性交互过程中无意出现来进一步区分。这种区分在基于智体的系统中至关重要，因为这两种情况都可能导致有害行为[60]。

即使不存在恶意攻击者，无意的危险也可能危及LLM智体的安全。例如，不清晰或措辞不当的用户查询可能会无意中覆盖系统指令或导致危险行为。此外，冗长的聊天记录中的上下文漂移可能会改变智体的行为，而无需显式覆盖指令[75, 76]。因此，核心挑战不仅在于检测显式攻击，还在于设计能够在模糊或不断变化的输入条件下保持一致性的智体，这凸显在输入验证、上下文管理和指令遵守方面加强防御的必要性。下图提供一个非故意提示注入攻击的可视化示例。
请添加图片描述

另一方面，攻击者也可以创建有害指令，其目的在于通过故意提示注入来操纵 LLM 智体。直接提示劫持（例如“忽略所有先前的指令……”之类的字符串）和间接向量（编码在外部来源（如论文、API 或在线内容）中的恶意载荷）都可能是故意的 [77, 78]。故意提示注入还可以在多智体系统中的智体之间传播，导致持续劫持或通过可靠的通信信道进行协同攻击 [38]。与非故意提示注入相比，由于故意攻击旨在迫使智体执行有害行为，而不仅仅是产生危险的输出，因此需要主动保护策略，例如输入清理、工具使用监控和异常检测 [63]。

基于攻击模态

除了传统的基于文本的提示注入攻击外，人工智能智体越来越容易受到利用现代模型日益增强的功能（包括代码生成/执行和多模态理解）的攻击[79, 80, 61]。攻击者可以利用智体对人类而言的“黑箱”特性、训练方法以及对其内部逻辑的解读，将指令隐藏并注入到图像、声音或视频中[81]。当然，由于传统的过滤器和防御措施更通用，它们无法检测到此类针对特定智体的攻击。如图可视化这些攻击：
请添加图片描述

基于文本的注入攻击。随着 LLM 智体的日益普及，基于文本的攻击可以以多种形式出现。这些攻击包括直接的提示注入攻击，以及伪装成合法编程活动的代码注入攻击，从而生成恶意代码或 SQL 查询以执行禁止的操作（称为提示到 SQL 或 P2SQL 攻击）[82, 61]。这些攻击利用人类指令与 SQL 生成之间的语义差异，绕过标准的数据库安全措施 [82–84]。现实世界的例子包括 CVE-2024-5565，它展示了如何利用 AI 生成的代码进行任意执行 [85]，以及间接利用 OCR 可读文本的攻击 [79]。

基于图像和视频的注入攻击。这类攻击包括通过隐写术或将恶意指令嵌入图像中，并将这些指令或模式解释为智体的命令 [79, 81]。本质上，以往的研究 [79, 81] 表明，攻击者可以利用扰动图像轻松操纵模型/智体，使其产生恶意行为。这也表明，未来可能使用基于视频输入的智体框架存在潜漏洞，因为视频可以分解为单个关键帧 [86]。此外，针对当前基于视频的 AI/ML 模型，存在许多强大的对抗性攻击策略 [87–89]，这进一步加剧了人们的担忧。

基于音频的注入。与基于图像的注入类似，智体AI框架也容易受到基于音频的注入攻击。攻击者通过恶意指令污染音频输入，导致智体偏离安全行为。以往的研究表明，对抗性扰动可用于将恶意提示注入混入音频内容中，从而发起IPI攻击[81]和越狱模型[90]。其他研究也探索嵌入层面的类似攻击[91]。

混合攻击。针对智体框架的对抗性提示注入攻击也可能是混合型的，并结合多种模态。Aichberger证明[92]，当对抗性图像补丁被截取到屏幕截图中时，可以劫持多模态操作系统智体执行有害命令，而无需考虑屏幕布局或用户请求。在此基础上，Wang [79]介绍一种名为 CrossInject 的跨模态提示注入方法，该方法将对齐的对抗信号嵌入到视觉和文本中，在各种任务中至少将攻击效率提升 30.1%。显然，由于任何受支持模态中的恶意材料都可能影响智体的行为并导致不良输出，因此混合多模态攻击对于那些几乎无需监督即可自主与外部工具、文档和 Web 界面通信的 AI 智体来说，尤其棘手。

传播方向

另一种快速注入攻击的分类方式，是根据攻击是否局限于单个目标，还是以多跳方式在系统中传播。因此，攻击在系统中的传播方式（以及注入响应的内容或模式）是智体人工智能安全的关键组成部分[38]。因此，理解传播行为[61]对于有效保护智体至关重要。

非传播性攻击。一些攻击的主要目的是从环境中提取特定信息。许多代码注入攻击本质上是非传播性的，例如仅运行 SQL 查询以检索所需数据[93]或执行跨站脚本攻击以获取用户token[94]。

传播攻击。最近的研究 [61] 将针对 AI 智体的传播攻击定义为两种主要类型：递归注入，其中单个恶意提示会在未来交互中触发一系列受损行为 [61, 38, 95]；以及自主传播，其中包括多智体感染和 AI 蠕虫，它们无需用户干预即可在智体或系统边界之间传播恶意提示 [96, 38]。

多语言和混淆注入

使用多种语言、编码或符号来掩盖恶意意图是一种经典的提示混淆技术，它使攻击者能够绕过标准过滤器，并将有害内容注入到看似无害的输入中[60]。为了绕过内容审核流程，攻击者可以使用 Base64 字符串、HTML 实体、表情符号对指令进行编码，或者将其隐藏在非主流/低资源语言中。由于LLM仍然能够利用预训练期间获得的知识来解释和执行这些隐藏的指令，因此混淆技术使攻击者能够绕过简单的、基于模式的防御机制[60, 97]。先前的研究进一步表明，这些攻击可以利用诸如特定语言的系统提示或token化器处理中的不一致等弱点[97]。

有效载荷分割

有效载荷分割是指攻击者故意将恶意内容分散到多个看似无害的输入中，然后诱使LLM聚合这些输入，从而仅在重组合时才暴露有害有效载荷[98]。另一种策略是将恶意指令分散到多个输入中，使其对抗效果仅在模型将它们全部组合或处理时才会显现。例如，基于LLM的筛选智体可能会将包含散布在各个部分的恶意提示片段的简历连接或联合汇总，从而操纵模型给出正面评价，而不管应聘者的实际资质如何[60, 59]。这种攻击本质上利用多文档或基于检索的工作流程中的聚合阶段[96]，因此被认为是简历筛选助手和相关基于LLM人力资源流程中的一个主要弱点[59]。请注意，与直接提示注入相比，有效载荷分割使得在任何一个输入中检测恶意信息变得更加困难，但当各个部分重新组合时，攻击者仍然可以实现其目标[60]。

自主网络攻击与工具滥用

当LLM智体获得代码执行权限或系统级工具时，它们可以自主发起对抗性网络安全攻击，从而产生自主网络攻击。与需要外部人员操纵模型的快速注入或越狱攻击不同，自主攻击是指智体无需直接人工监督即可自行识别、组织和执行攻击[96, 38, 99]。以往的研究表明，这些对抗性智体能够在沙盒环境中成功入侵网站[100]并执行一日漏洞利用[101]。此外，根据各种行业评估[16]，攻击者在这些情况下的目标可能包括数据窃取、欺诈、部署勒索软件和网络横向移动。

尤其需要注意的是，自主网络攻击的经济效益对攻击者而言非常有利[96, 38, 99]。例如，攻击者可以利用 GPT-4 以每次几美元的成本执行有效的单日漏洞利用，使得攻击成本低于雇佣人工攻击者。此外，LLM 驱动的攻击具有并行化特性，进一步加剧了这一问题，因为将其扩展到大量攻击尝试既可行又经济 [100]。

单日漏洞利用

近期研究表明，LLM智体，尤其是基于GPT-4构建的智体，能够自主利用现实世界中存在的漏洞，包括Python包、在线平台和容器管理系统中未修补的CVE漏洞[101]。为了执行诸如SQL注入、远程代码执行（RCE）和并发/协同攻击等复杂攻击，对抗智体可以利用工具使用、规划和文档检索等能力。值得注意的是，GPT-4的性能通常优于所有其他被考察的模型以及OWASP ZAP[102]和Metasploit[103]等传统漏洞扫描器，在给定CVE描述的情况下，其成功率高达87%[101]。

自主网站攻击

在近期的研究中，Fang[100]展示GPT-4智体如何在事先不了解某些漏洞的情况下独立入侵沙盒网站。这些智体会执行多步骤攻击，例如利用跨站脚本攻击 (XSS) 和跨站请求伪造 (CSRF) 进行 XSS+CSRF 链式攻击 [104]、服务器端模板注入 (SSTI) [105] 以及盲注 SQL 联合注入 [106]。研究表明，智体的上下文管理、工具集成和战略规划等能力对于攻击的成功至关重要。通常，如果智体无法访问文档或获得详细的提示，其性能会显著降低。

新兴工具滥用

最近的研究还表明，自主 LLM 智体可以采取协作和自适应的工具使用行为来实施网络攻击。例如，在 [100] 中，作者设计能够通过策略性地组合工具调用和动态规划来执行复杂的多步骤网站攻击的 LLM 智体。 Shi 的 ConAgents [107] 框架强调了专业智体之间在工具选择、执行和动作校准方面的结构化协作，使智体能够迭代地从故障中恢复并改进其动作。在工具集成方面，Wang 的 ToolGen [108] 框架使 LLM 能够在生成下一个token时调用工具，从而简化跨广泛工具集的链接，而无需外部检索模块。这些工作共同强调在实现具有工具访问功能的自主智体系统时，部署强大的隔离和运行时监控机制的重要性。

多智体和协议级威胁

一般来说，多智体系统引入独特的攻击向量，这些攻击向量源于对标准化通信、互操作性和分布式任务执行的需求。与单智体环境（威胁主要局限于提示注入或不安全的工具使用）不同，多智体生态系统通过协议介导的交互放大了风险。消息篡改、角色欺骗和协议漏洞利用为攻击者提供机会，不仅可以攻击单个智体，还可以攻击整个协同工作流[38, 109]。

协议-级 MCP 和 A2A 的攻击

最近的一些研究探讨新兴协议级标准带来的安全威胁。值得注意的是，Ferrag [110]研究流行的模型上下文协议 (MCP) [111] 和智体到智体 (A2A) 协议 [112] 框架以及更广泛的协议族（例如智体网络协议 (ANP) [113] 和智体通信协议 (ACP) [114]）中的漏洞。MCP 和 A2A，在实现智体-工具集成和多状态生态系统方面具备重要性和普及性。
如图所示两个攻击：（a）MCP；（b）A2A

请添加图片描述

威胁Actor的视角

基于 Ko [109] 提出的分类法，从威胁Actor的角度重新构建跨域多智体LLM系统的安全挑战。这种框架突出恶意Actor如何利用智体间的信任、协调、学习和数据流。共分别六大类威胁：冒充与角色滥用、协调操纵、知识与学习操纵、推理与策略规避、责任混淆以及机密性与完整性破坏。

冒充与角色滥用。攻击者可以利用缺乏集中式身份和信任管理来冒充虚假角色或覆盖预期权限。通过伪造智体的身份或冒充受信任的合作者，攻击者可以进入原本受限的工作流程 [124, 125]。一旦植入系统，恶意智体即可串通形成隐蔽共识，不断扩大其影响力，直至合法的安全保障失效[126, 127]。跨域/组织间的利益冲突（例如，相互竞争的企业利益）进一步为敌对智体提供掩护，使其能够以组织目标为幌子掩盖自身真实意图[109]。

协同操作。跨域/组织的系统，会动态地将智体分组到特定任务的团队中，通常无需事先审查[128]。虽然这种能力提高了系统的适应性和效率，但也削弱了清晰的信任边界。恶意或未经验证的智体可以在运行时作为特定任务团队的一部分被引入，后门攻击就是明证[129-132]。递归委托会加剧攻击：受感染的智体可以将子任务卸载给其他智体，从而将敌对影响进一步扩散到工作流程中[109]。与静态攻击（例如传统恶意软件）不同，这些攻击利用多智体系统的框架[133, 134]。

知识与学习操纵。跨域多智体LLM允许智体通过共享学习和分布式微调进行自我改进[109, 135]。如果没有统一的监管，攻击者可以巧妙地操纵单个智体的奖励信号，导致行为偏差在智体间传播[136, 134]。正反馈回路可能会放大不安全的目标，从而导致策略漂移和权限滥用。与提示或记忆注入不同，这种攻击利用学习过程本身，并且可以跨域不被检测到[109]。

推理与策略规避。联邦多智体LLM系统正在改变企业运营，它允许一个组织内拥有敏感数据访问权限的智体与外部合作伙伴管理的智体进行交互。然而，一旦信息跨越组织边界流动，即使内部策略（例如，“不披露个人薪资”或“仅共享汇总统计数据”）仍然有效，也没有任何单一实体能够完全监管这种交互。这使得攻击者能够执行跨智体推理，通过对多个看似无害的部分输出进行推理来重构敏感数据。传统的安全机制假设单个智体能够完全访问提示信息[125, 38]，但在联邦环境中，上下文信息分散在各个智体及其各自的提示信息中。这种分散性为规避策略提供了机会。例如，攻击者可以向一个智体询问某个部门的最高薪资，然后向另一个智体询问获得该薪资人员的姓名，从而有效地重构受限信息。类似地，向不同智体发出的独立查询可以被策略性地组合起来，以满足原本被禁止的请求。传统的防御措施，例如静态关键词过滤和基于角色的访问控制[137]，无法捕获这些分布式推理攻击。零知识证明[138]或差分隐私[139]等技术在处理自然语言交互的动态性和组合性方面也存在局限性[140]。尽管近期研究表明，多轮攻击可以绕过在孤立环境中有效的保护措施，但大多数企业工具仍然基于独立性假设来处理智体交互[141]。

责任混淆。从威胁行为者的角度来看，跨多个组织域的多智体系统为隐藏恶意行为的责任提供绝佳的机会。每个域通常执行独立的日志记录、保留和审计策略，从而阻碍了统一的活动追踪[109]。一旦输入数据被LLM处理，它就会被转换为分布式潜表示，从而消除可能将行为与其来源关联起来的持久标识符[142]。与可以实现污点检查或显式信息流跟踪的传统软件系统不同[143]，这些潜表示使得追踪变得不可行[144]。攻击者可以利用这一点，通过入侵域A中的智体，注入具有欺骗性但看似合理的指令，并间接触发域B中的有害行为，同时掩盖其身份和意图[145-147]。即使进行智体级别的审计，智体间关系和跨域因果关系仍然隐藏，这极大地增加问责难度。当前的解释性工具，例如影响函数[148, 149]、激活追踪[150]或模型源归因查询[151-153]，提供的可见性有限，并且在这些复杂的多智体环境中常常失效。

机密数据篡改/泄露。威胁行为者还可以利用多智体系统的加密和工作流限制。即使在输入和输出都经过加密的隐私保护部署中[154-156]，攻击者也可能利用跨域明文信息不完全可见的漏洞。例如，在云托管的医疗流程中，加密的患者扫描数据由不同供应商管理的多智体处理，中间输出永远不会暴露[157]。虽然这种设计减少直接暴露，但攻击者仍可能尝试修改解密结果或干扰中间计算，从而注入有害信息。与采用集中式日志记录和签名机制的本地系统不同，分布式加密工作流会使所有参与者都面临攻击风险。诸如全同态加密[158]、多方计算[159]和零知识证明[160]等技术可以提供部分缓解，但它们计算成本高昂，且无法完全防止大规模、多域智体网络中的篡改。因此，在实际的多智体部署中，机密性和完整性漏洞仍然是攻击者可利用的途径。

界面和环境风险

在人工智能智体的背景下，尤其是在基于网络或具身环境中运行的智体，界面和环境风险指的是智体与其外部运行环境交互时产生的脆弱性和局限性[161]。这些风险并非源于智体的内部推理或学习能力，而是源于智体感知和行动所依赖的界面和环境的不匹配、脆弱性或可变性[162-164]。

该风险类别包含三个关键维度：
观察空间与动作空间不匹配
尽管已部署的智体通常需要滚动、悬停或标签页操作等静态操作，但 LLM 模型是在静态文本语料库上进行预训练的。这种训练数据的不匹配会导致感知和执行问题。

真实环境中的感知-动作脆弱性

WebArena 的错误分析 [162]揭示基于 LLM 的智体在真实环境中的三个紧密相关的脆弱性。
对先前输入的误解
过早终止和对可实现性的误判
模板、反馈和记忆的脆弱性

动态内容、本地化和机器人检测

对于自主智体而言，Web 环境带来重大的可访问性和可复现性挑战。时区、默认语言和地理设置等本地化因素会改变网站的渲染方式，导致智体行为的变化，从而影响试验间的一致性 [166]。广告、弹出窗口和非确定性更新等动态界面元素会进一步增加随机性，即使在几乎相同的任务上也会导致性能不稳定 [162]。

治理与自主性问题

由于人工智能智体日益独立，而人类监督却日益减少，控制力也随之下降，因此，对这些系统提出更完善的治理/监管方案至关重要。能够自主编写和运行代码的完全自主系统在安全、保障和信任方面带来了更高的风险[168, 99, 169]。这些智体有可能以不可预测的方式行事，突破人类的局限性，并使用户面临一系列负面后果，例如散布虚假信息和系统劫持[170, 171]。监管不力会引发有关权力和责任的伦理问题，尤其是在自主武器等高风险关键任务应用中[172]。研究人员建议确保人机交互控制，并使用结构化的自主级别来定义智体的能力和限制，以降低潜在风险[173, 174]。此外，开发能够保障和确立自主智体行为可接受界限的治理框架也至关重要。