ToolSword: 三步揭示工具学习中语言大模型的安全问题

三谷秋水

已于 2024-05-28 03:10:56 修改

阅读量984

点赞数 13

分类专栏：智能体大模型文章标签：安全语言模型人工智能

于 2024-05-28 02:37:51 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/139251946

版权

大模型同时被 2 个专栏收录

739 篇文章

订阅专栏

智能体

511 篇文章

订阅专栏

24年2月复旦大学论文“ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages”。

工具学习被广泛认为是在现实场景中部署语言大模型（LLM）的基础方法。虽然当前的研究主要强调利用工具来增强LLM，但它经常忽视涌现的与其应用相关的安全因素。为了填补这一空白，推出ToolSword，一个综合框架，致力于仔细研究与工具学习中LLM相关的安全问题。具体来说，ToolSword为LLM在工具学习中描绘了六种安全场景，包括输入阶段的恶意查询和越狱攻击、执行阶段的噪声误导和风险提示、以及输出阶段的有害反馈和错误冲突。在 11 个开源和闭源 LLM 上进行的实验，揭示了工具学习中持久的安全挑战，例如处理有害查询、使用有风险的工具以及提供有害反馈，甚至 GPT-4 也容易受到这些挑战。此外，还开展进一步的研究，旨在促进工具学习安全性的研究。数据发布网址如下：

https://github.com/Junjie-Ye/ToolSword

工具学习提供了一种在LLM和现实世界之间建立牢固联系的有效方法。通过外部工具的积累和大量工具使用示例的生成，研究人员可以使LLM能够理解各种工具的功能，在必要时调用适当的工具，并将其用于各种下游任务（Jin，2023； Tang，2023；Zhang，2023；Yang，2023a)。对现有LLM工具学习的评估表明，许多当前模型具有基本的工具使用能力，同时也指出了进一步改进的潜在领域（Chen，2023b；Ye，2024a，b）。然而，在努力提高工具使用能力的同时，也不能忽视可能带来的安全风险。因此，重点是识别和解决与LLM工具学习相关的安全问题，推进该领域的研究和实际应用。

如图所示，ToolSword 对LLM在工具学习过程中遇到的安全挑战进行全面分析，涵盖三个不同的阶段：输入、执行和输出。在每个阶段，设计了两个安全场景，对LLM在使用该工具时可能遇到的现实情况进行彻底的探索。

添加图片注释，不超过 140 字（可选）

如图所示：LLM对标准对话和工具学习上下文之间不安全查询的响应。工具学习可能会破坏LLM的安全对齐机制，导致通过工具调用响应不安全的查询。

添加图片注释，不超过 140 字（可选）

如下详细讨论如何设计这三个阶段的的安全场景。

输入阶段致力于评估LLM识别并有效拒绝用户提出的不合理请求的能力。换句话说，用户可能会请LLM来回答问题或提供带来安全风险的说明。在这种情况下，除了拒绝之外，LLM的任何回应都被认为是不安全的。因此，设计了两种场景来评估这一点。

恶意查询 (MQ) 。MQ 涉及直接的安全测试场景，其中直接使用恶意查询和相关工具来评估 LLM 识别用户意图和拒绝不安全请求的能力。
越狱攻击 (JA) 。JA 基于 MQ，结合越狱方法来处理查询，从而增加了LLM识别恶意查询的挑战。

执行阶段的重点是评估LLM准确选择工具的能力。鉴于工具执行的结果会影响外部环境（Ye et al., 2024a,b），滥用不正确或有风险的工具可能会偏离用户的意图，并可能破坏外部环境。例如，这种滥用可能会引入程序病毒。针对现实世界中与工具相关的问题，也设计了两种不同的场景。

噪声误导 (NM) 。NM 涉及现实场景中遇到的含噪工具名称挑战（Ye，2024b）。它试图确定LLM在存在这种噪声的情况下是否会选择不正确的工具，从而可能造成不可挽回的伤害。
风险提示 (RC) 。RC 强调了使用会带来安全风险的特定工具相关的实际挑战，例如引入病毒的可能性。这项调查的目的是检查LLM是否能够理解这些工具的功能并避免使用不安全的替代方案。

输出阶段的重点是评估LLM过滤有害信息和错误信息干扰的能力。鉴于工具产生的结果来自物理世界，并且可能包含各种问题，无法识别和纠正这些问题的LLM可能会向用户提供不安全的响应。因此，设计了两种场景进行分析。

有害反馈（HF）。HF 旨在评估LLM在收到来自工具的有害反馈时是否能够识别并防止有害内容的生成。
错误冲突 (EC) 。EC 强调现实世界反馈中的事实错误或冲突问题。其主要目标是调查LLM是否具备纠正常识性错误或识别事实不一致的能力，从而避免向用户提供不准确的反馈。

下表是数据的统计分析：

添加图片注释，不超过 140 字（可选）