LLM 智体的安全性和隐私性:带案例研究的综述

24年7月来自悉尼技术大学、澳门城市大学和美国UIC的论文“The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies”。

受大语言模型 (LLM) 快速发展的启发,LLM 智体已经发展到可以执行复杂任务的程度。LLM 智体现在广泛应用于各个领域,处理大量数据以与人类交互并执行任务。LLM 智体的广泛应用证明了其巨大的商业价值;然而,它们也暴露了安全和隐私漏洞。在现阶段,非常需要对 LLM 智体的安全性和隐私进行全面研究。

本综述查旨在全面概述 LLM 智体面临的隐私和安全问题。首先介绍 LLM 智体的基本知识,然后对威胁进行分类和分析。然后,讨论这些威胁对人类、环境和其他智体的影响。随后,回顾现有的防御策略,最后探索未来趋势。此外,结合各种案例研究,以促进更容易理解。

LLM 智体的重要性在于它们有可能通过自动执行需要类似人类理解和交互的任务来改变各个行业。它们可以提高生产力,改善用户体验并提供个性化帮助。此外,它们从大量数据中学习的能力使它们能够不断改进和适应新任务,使它们成为快速发展技术环境中的多功能工具 [107]。

为了直观地了解 LLM 如何集成到实际场景中,请考虑图中所示的示例。该图展示了一个像素化的虚拟城镇来模拟 LLM 智体应用程序。该城镇包括现实生活中的聚会场所,例如商店、办公室、餐馆、博物馆和公园。每个 LLM 智体都充当独立的居民,扮演各种角色并发挥不同的作用,与社区中真实人类的行为非常相似。这些智体可以手动控制以与特定角色交互并完成任务,也可以自主运行,按照自己的计划并通过虚拟社区内的互动获取新知识。

添加图片注释,不超过 140 字(可选)

由于LLM智体在各个领域得到广泛应用,其部署带来了广泛的用户群和较高的商业价值。鉴于LLM智体仍处于早期阶段,其巨大的商业和应用价值使其成为攻击者的诱人目标。然而,由于LLM智体建立在LLM之上,因此它们容易受到针对LLM的攻击。例如,越狱攻击可以绕过LLM的安全和审查功能,从而产生有争议的响应。这种威胁被LLM智体继承,使攻击者能够采用各种方法对智体执行越狱攻击。

然而,与静态LLM不同,LLM智体具有动态能力,因此它们的即时响应可以影响未来的决策和行动,从而带来更广泛的风险。此外,LLM智体的独特功能,例如它们在执行任务时思考和利用工具的能力,使它们容易受到针对智体的特定攻击。例如,当LLM智体使用外部工具时,攻击者可以操纵这些工具的功能来泄露用户隐私或执行恶意代码。根据智体的应用领域,此类攻击可能对物理安全、金融安全或整个系统完整性构成严重威胁。

LLM 智体面临的安全威胁,分为继承的 LLM 攻击和独特的智体特定威胁。自 LLM 继承的威胁可以进一步分为技术漏洞和故意恶意攻击。技术漏洞包括幻觉、灾难性遗忘和误解等问题 [107],这些问题源于最初的模型创建,并受到模型结构的影响。这些漏洞可能导致用户在长时间使用 LLM 智体时观察到错误的输出,从而影响用户信任和决策过程。此外,技术漏洞可以为恶意攻击提供机会。目前,针对 LLM 的恶意攻击包括数据盗窃和响应篡改,例如数据提取攻击和一系列调整后的指令攻击 [119]。

对于针对 LLM 智体的特定威胁,考虑 LLM 智体的工作流程,即涉及智体的思维、行动和感知 [40]。威胁可分为知识中毒、功能操纵和输出操纵。

知识毒害涉及污染 LLM 智体的训练数据和知识库,导致创建者故意合并恶意数据。这很容易用有害信息欺骗用户,甚至引导他们采取恶意行为。
输出操纵会干扰智体思考和感知阶段的内容,影响最终输出。这可能会导致用户收到带有偏见或欺骗性的信息,这些信息是为误导他们而精心设计的。
功能操纵利用 LLM 智体使用的接口和工具执行未经授权的操作,例如第三方数据盗窃或执行恶意代码。
LLM 智体的研究仍处于早期阶段。当前的研究主要关注针对 LLM 的攻击,而缺乏全面的评论来讨论特定于智体的安全和隐私问题,这会带来更复杂的场景。

如图所示LLM智体的威胁来源:

添加图片注释,不超过 140 字(可选)

LLM 智体是一种人工智能系统,它利用 LLM 作为核心计算引擎,展现出文本生成以外的能力,包括进行对话、完成任务、推理,并能表现出一定程度的自主行为 [4]。

这些智体表现出了非凡的类人行为和合作能力,其特点是能够熟练地参与多智体对话并适应不同的环境互动。它们擅长处理人类指令、制定复杂的策略并自主实施解决方案 [96]。

如图说明 LLM 智体的典型结构,突出显示了其关键组件和可选组件之间的连接。这些组件将 LLM 从被动文本生成器推进到主动、半自主的 LLM 智体。LLM 智体由多个组件组成,其中 LLM 引擎是核心。LLM 引擎使用其他组件来执行各种任务。可以使用三个主要组件构建一个能够理解指令、展示技能和与人类协作的基本智体:LLM 引擎、指令和接口。当集成其他可选组件时,系统可以演变为更高级的任务导向型智体或对话智体 [115]。

请添加图片描述

此外,个性是定义 LLM 智体的语气、风格和交互方式的组件。例如,导游或客服智体需要扮演特定角色并以适当的方式执行对话任务。在通过基于 LLM 智体的社会探索人类社区的任务中,其还需要被赋予独特的个性特征,例如外向、礼貌或知识渊博。个性有助于模拟真实的情感表达和行为逻辑,从而能够与用户交互并始终如一地执行任务 [7]。

还有工具,是 LLM 智体用来执行特定任务或扩展其功能的外部服务。工具的集成有助于增强其执行更复杂任务(例如计算或数据分析)的能力 [107]。

而且,知识是 LLM 智体使用的信息数据库。它扩展了嵌入在模型参数中的内容,可以包括常识性知识、专业知识和其他形式的信息,增强了智体在特定任务中的理解和讨论能力 [64]。记忆功能使 LLM 智体能够存储和调用过去交互中的信息。此功能在未来的任务中尤其有用,有助于保留上下文并确保交互的一致性和连续性,从而提高 LLM 智体在各种应用中的整体有效性 [134]。

LLM 智体的能力包括:
工具利用。使用各种工具,包括外部服务和 API。这使它们能够收集必要的信息并高效地执行语言处理以外的任务 [12]。
高级推理。采用提示工程概念,例如思维链和思维树推理,可以建立逻辑联系以得出结论并解决问题,从而将其能力扩展到简单的文本理解之外 [95]。
定制文本生成。LLM 智体擅长通过整合上下文理解和面向目标的语言生成技能,为特定目的(例如电子邮件、报告和营销材料)生成定制文本 [102]。
自主性水平。这些智体的自主性各不相同,从完全自主到半自主,用户交互程度根据手头的任务量身定制 [96]。

与其他 AI 系统集成。 还可以与不同的 AI 系统(如图像生成器)集成,以提供更全面的功能,展示其在各种应用中的多功能性 [10]。

在LLM的训练过程中,数据和学习算法的局限性可能会引入技术漏洞 [107],阻碍准确可靠信息的生成,包括:
幻觉。幻觉的概念,确定为这些模型产生的输出与提供的输入或源内容不一致或不可靠的情况。幻觉现象是一个复杂的问题,源于模型开发过程的多个阶段,包括训练数据的性质、模型的架构设计以及解码过程中采用的策略。训练数据中的错误信息和偏见可能导致产生不准确或有偏见的输出,进而导致不同类型的幻觉 [48]。此外,模型架构中的缺陷,例如有限的方向性表示和注意机制问题,以及暴露偏差,进一步导致了幻觉的发生 [55]。此外,这些模型解码算法固有的随机性也会导致幻觉,尤其是当这种随机性增加时 [8]。
灾难性遗忘。它是LLM 智体微调和上下文学习过程中遇到的重大挑战。这种现象发生在大语言模型在小型特定数据集上进行微调时,导致其过拟合这些新数据,并因此失去之前在其他任务上获得的性能 [34, 109, 120]。[61] 发现灾难性遗忘受到模型大小、架构设计以及持续微调和指令调整所采用的方法等因素的显著影响。随着 LLM 规模的增加,灾难性遗忘趋于更加严重。此外,模型的架构设计,尤其是那些专注于仅解码器结构的设计,会影响灾难性遗忘的程度 [127]。此外,在持续指令调整过程中,缺乏有效的正则化策略或未能平衡新旧信息会加速遗忘 [24, 62]。在持续训练中引入更多教学任务通常会导致更明显的遗忘 [72]。
误解。也是一个显著的挑战,特别是当它们响应用户查询或融入社区与其他智体进行交流时。在交互过程中无法充分理解或不准确地响应人类或其他智体传达的意图或指令时,就会出现此问题。这可能导致 LLM 智体的不当或危险行为,影响其安全性和可靠性。[103] 的调查显示,LLM 智体中的误解现象是由一系列因素造成的。这些因素包括用于 LLM 的预训练数据的性质、分配的特定任务设置以及发生交互的背景和场景。预训练数据的广度和质量从根本上影响了 LLM 的语言理解能力及其对常识知识的掌握。指定的任务设置对于指导 LLM 的目标导向和策略选择至关重要。此外,交互环境和场景在确定 LLM 在协作环境中的适应性和有效性方面起着至关重要的作用。解决这些多方面的问题是提高 LLM 智体在不同交互环境中的理解和响应准确性的关键。

考虑到 LLM 智体处于不断发展的状态,它们不可避免地面临着安全漏洞和防御方面的挑战。来自不同地区的对手已经展示了一系列故意地敌对攻击。这种不断发展的形势需要采取警惕和适应性的方法来保护 LLM 智体免受这种多方面威胁:
调整指令攻击。 是一类攻击或操纵,专门针对通过基于指令的微调优化的 LLM。这些攻击旨在利用 LLM 针对特定任务进行微调时出现的独特漏洞,巧妙地操纵模型的输出以达到恶意目的。 调整指令攻击的类型: 1)越狱。 指绕过模型的内置限制和安全措施,允许其执行原本被禁止的操作或生成受限制的内容。2)提示注入。 通过在提示中引入恶意和意外内容来误导 LLM 智体,使其产生与其训练数据和原始目的不同的输出。此方法涉及制作输入提示以绕过模型的内容过滤器或引出不良输出。
数据提取攻击。 攻击者从 LLM 智体或其底层数据(例如模型梯度、训练数据,甚至提示或敏感信息)中获取敏感信息或关键见解的努力。 已经发现了各种形式的数据提取攻击 [15, 42, 52],包括但不限于模型盗窃攻击、梯度泄漏和训练数据提取攻击,这表明数据提取攻击对 LLM 智体非常有效。
推理攻击。与数据提取攻击有某些相似之处,但它们的目标和重点却有很大不同。数据提取攻击的目的是直接获取训练数据。相比之下,推理攻击主要是估计特定数据样本是 LLM 智体训练数据集一部分的概率。

针对 LLM 智体的各种形式潜在攻击 [116],分为知识中毒、功能操纵和输出操纵:
知识中毒。攻击者通过将恶意数据集成到训练数据集或知识库中来破坏 LLM 引擎的训练和 LLM 智体的响应过程。
功能操纵。沿着攻击者指定的恶意踪迹改变任务执行中间步骤中的想法和动作,而不改变输出分布。这种类型的攻击通常发生在行动阶段,智体可能会使用攻击者指定的不受信任的工具来完成任务或执行恶意操作。
输出操纵。故意改变 LLM 智体的推理和决策过程,以生成特定的、通常有害的输出。这种操纵可以通过后门插入等技术来执行 [100, 114]。

LLM 智体对社会和技术进步带来重大影响,为用户提供了快速的信息访问,促进了学习和知识探索。然而,已经发现了许多专门针对 LLM 智体的威胁,突显了它们容易受到恶意活动的攻击。此类针对 LLM 智体的威胁可能会导致一系列副作用。这些不仅危及个人的隐私和安全,还会破坏数字生态系统,并可能对物理环境和虚拟社区中的其他代理造成危害。

对人类的影响包括:
隐私泄露。接受网络数据训练的 LLM 智体,这些数据通常包括个人信息 [46]。通过推理攻击 [45] 和数据提取 [15] 等技术,攻击者可以利用这些模型侵犯个人隐私。此外,恶意的 LLM 智体可以诱骗用户与攻击者共享他们的信息。这种暴露促进了社会工程策略,使攻击者能够使用被盗信息(例如地址、电子邮件和电话号码)执行网络钓鱼诈骗并劫持个人帐户,从而威胁金融安全。
安全风险。此外,恶意的 LLM 智体可能会用危险的建议或不正确的信息误导用户,造成严重的安全风险 [31]
社会影响。 LLM 智体是一种能够回答各种问题的智能对话机器人,如果其输出包括操纵偏见或非法内容(例如传播虚假信息和谣言),则会带来风险,可能对公共话语产生不利影响 [19, 31]。此类活动会扭曲公众看法,甚至操纵舆论,加剧社会冲突,煽动不满,从而威胁社会稳定。
促进网络攻击技术。一个被忽视的危险是降低进行网络攻击的门槛。配备高级网络攻击知识的恶意智体可以使新手生成有害脚本或软件 [25]。网络攻击工具的民主化放大了威胁形势,正如教授创建和修改恶意代码的智体所表明的那样。

对环境的影响包括:
数据篡改和误操作。当恶意智体被放置在控制关键基础设施(如工业、交通、能源和环境监测)的系统中时 [86, 93],它们可以通过篡改关键操作数据(如温度和压力指示器)导致工业控制系统发生故障。这可能导致设备损坏、生产停止,甚至严重的基础设施破坏、生态破坏以及人员伤亡和财产损失。
物理安全威胁。最近的研究已经开始探索具有 LLM [101] 的具身人工智能,它能够理解和生成自然语言,具有物理形式或与物理系统的直接连接,使它们能够在物理世界中执行任务。恶意智体有可能控制与人类交互的机器人或其他具身人工智能设备,执行直接威胁人类安全的危险行为。
网络安全风险激增。在对人类的影响方面,恶意LLM智体降低了编写和实施恶意代码的技术门槛,直接使普通用户,甚至是缺乏高级网络攻击技能的新手,能够轻松创建和部署有害脚本和软件[25]。这一变化直接扩大了网络威胁的目标群体,增加了普通用户成为潜在受害者的风险。

对其他智体的影响包括:
信息扭曲和误导。大量研究强调了 LLM 智体在谈判和欺骗性博弈场景中的作用 [41, 71, 98],这令人担忧。LLM 智体可能会故意改变传播的信息以实现隐藏的目标。这种行为对社区内的其他智体有重大影响,因为在正常情况下,善意的智体会将通过感知和交流获得的信息存储在记忆中。然而,这些智体与其他智体之间的互动可能会触发和传播不正确的信息,导致错误信息的“爆炸性传播”,对社区稳定构成相当大的威胁。如果信息传播可以被恶意操纵,可能会对智体之间的信任、沟通效率和协同工作产生不利影响。
操纵决策。鉴于 LLM 智体在复杂的交互环境中表现出卓越的推理和决策能力,恶意智体理破坏这些过程的可能性成为一个重大问题。通过传播精心设计的信息,这些智体可以影响其他智体的决策过程,甚至控制它们做出符合恶意智体目的的决策[33]。这种影响可以延伸到社区的各个方面,包括资源分配、任务分配和外部交互策略。
安全威胁。在某些情况下,恶意智体可能会传播有害信息或执行危险操作,直接威胁社区成员的安全或数据安全[13, 16]。

下表总结对技术漏洞的防范措施:

请添加图片描述

下表总结对恶意攻击的防范措施:

请添加图片描述

下表总结对特定智体攻击的防范措施:

请添加图片描述

未来需要重视的方向是两个:

多模态大模型智体

下图是多模态大模型智体的框架:

请添加图片描述

大语言模型的多智体

如图是LLM多智体系统的框架:

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值