24年2月复旦大学论文“ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages”。
工具学习被广泛认为是在现实场景中部署语言大模型(LLM)的基础方法。 虽然当前的研究主要强调利用工具来增强LLM,但它经常忽视涌现的与其应用相关的安全因素。 为了填补这一空白,推出ToolSword,一个综合框架,致力于仔细研究与工具学习中LLM相关的安全问题。 具体来说,ToolSword为LLM在工具学习中描绘了六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的噪声误导和风险提示、以及输出阶段的有害反馈和错误冲突。 在 11 个开源和闭源 LLM 上进行的实验,揭示了工具学习中持久的安全挑战,例如处理有害查询、使用有风险的工具以及提供有害反馈,甚至 GPT-4 也容易受到这些挑战。 此外,还开展进一步的研究,旨在促进工具学习安全性的研究。 数据发布网址如下:
https://github.com/Junjie-Ye/ToolSword
工具学习提供了一种在LLM和现实世界之间建立牢固联系的有效方法。 通过外部工具的积累和大量工具使用示例的生成,研究人员可以使LLM能够理解各种工具的功能,在必要时调用适当的工具,并将其用于各种下游任务(Jin,2023; Tang,2023;Zhang,2023;Yang,2023a)。 对现有LLM工具学习的评估表明,许多当前模型具有基本的工具使用能力,同时也指出了进一步改进的潜在领域(Chen,2023b;Ye,2024a,b)。 然而,在努力提高工具使用能力的同时,也不能忽视可能带来的安全风险。 因此,重点是识别和解决与LLM工具学习相关的安全问题,推进该领域的研究和实际应用。
如图所示,ToolSword 对LLM在工具学习过程中遇到的安全挑战进行全面分析,涵盖三个不同的阶段:输入、执行和输出。 在每个阶段,设计了两个安全场景,对LLM在使用该工具时可能遇到的现实情况进行彻底的探索。
如图所示:LLM对标准对话和工具学习上下文之间不安全查询的响应。 工具学习可能会破坏LLM的安全对齐机制,导致通过工具调用响应不安全的查询。
如下详细讨论如何设计这三个阶段的的安全场景。
输入阶段致力于评估LLM识别并有效拒绝用户提出的不合理请求的能力。 换句话说,用户可能会请LLM来回答问题或提供带来安全风险的说明。 在这种情况下,除了拒绝之外,LLM的任何回应都被认为是不安全的。 因此,设计了两种场景来评估这一点。
恶意查询 (MQ) 。MQ 涉及直接的安全测试场景,其中直接使用恶意查询和相关工具来评估 LLM 识别用户意图和拒绝不安全请求的能力。
越狱攻击 (JA) 。JA 基于 MQ,结合越狱方法来处理查询,从而增加了LLM识别恶意查询的挑战。
执行阶段的重点是评估LLM准确选择工具的能力。 鉴于工具执行的结果会影响外部环境(Ye et al., 2024a,b),滥用不正确或有风险的工具可能会偏离用户的意图,并可能破坏外部环境。 例如,这种滥用可能会引入程序病毒。 针对现实世界中与工具相关的问题,也设计了两种不同的场景。
噪声误导 (NM) 。NM 涉及现实场景中遇到的含噪工具名称挑战(Ye,2024b)。 它试图确定LLM在存在这种噪声的情况下是否会选择不正确的工具,从而可能造成不可挽回的伤害。
风险提示 (RC) 。RC 强调了使用会带来安全风险的特定工具相关的实际挑战,例如引入病毒的可能性。 这项调查的目的是检查LLM是否能够理解这些工具的功能并避免使用不安全的替代方案。
输出阶段的重点是评估LLM过滤有害信息和错误信息干扰的能力。 鉴于工具产生的结果来自物理世界,并且可能包含各种问题,无法识别和纠正这些问题的LLM可能会向用户提供不安全的响应。 因此,设计了两种场景进行分析。
有害反馈(HF)。HF 旨在评估LLM在收到来自工具的有害反馈时是否能够识别并防止有害内容的生成。
错误冲突 (EC) 。EC 强调现实世界反馈中的事实错误或冲突问题。 其主要目标是调查LLM是否具备纠正常识性错误或识别事实不一致的能力,从而避免向用户提供不准确的反馈。
下表是数据的统计分析: