ToolSword: 三步揭示工具学习中语言大模型的安全问题

24年2月复旦大学论文“ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages”。

工具学习被广泛认为是在现实场景中部署语言大模型(LLM)的基础方法。 虽然当前的研究主要强调利用工具来增强LLM,但它经常忽视涌现的与其应用相关的安全因素。 为了填补这一空白,推出ToolSword,一个综合框架,致力于仔细研究与工具学习中LLM相关的安全问题。 具体来说,ToolSword为LLM在工具学习中描绘了六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的噪声误导和风险提示、以及输出阶段的有害反馈和错误冲突。 在 11 个开源和闭源 LLM 上进行的实验,揭示了工具学习中持久的安全挑战,例如处理有害查询、使用有风险的工具以及提供有害反馈,甚至 GPT-4 也容易受到这些挑战。 此外,还开展进一步的研究,旨在促进工具学习安全性的研究。 数据发布网址如下:

https://github.com/Junjie-Ye/ToolSword

工具学习提供了一种在LLM和现实世界之间建立牢固联系的有效方法。 通过外部工具的积累和大量工具使用示例的生成,研究人员可以使LLM能够理解各种工具的功能,在必要时调用适当的工具,并将其用于各种下游任务(Jin,2023; Tang,2023;Zhang,2023;Yang,2023a)。 对现有LLM工具学习的评估表明,许多当前模型具有基本的工具使用能力,同时也指出了进一步改进的潜在领域(Chen,2023b;Ye,2024a,b)。 然而,在努力提高工具使用能力的同时,也不能忽视可能带来的安全风险。 因此,重点是识别和解决与LLM工具学习相关的安全问题,推进该领域的研究和实际应用。

如图所示,ToolSword 对LLM在工具学习过程中遇到的安全挑战进行全面分析,涵盖三个不同的阶段:输入、执行和输出。 在每个阶段,设计了两个安全场景,对LLM在使用该工具时可能遇到的现实情况进行彻底的探索。

添加图片注释,不超过 140 字(可选)

如图所示:LLM对标准对话和工具学习上下文之间不安全查询的响应。 工具学习可能会破坏LLM的安全对齐机制,导致通过工具调用响应不安全的查询。

添加图片注释,不超过 140 字(可选)

如下详细讨论如何设计这三个阶段的的安全场景。

输入阶段致力于评估LLM识别并有效拒绝用户提出的不合理请求的能力。 换句话说,用户可能会请LLM来回答问题或提供带来安全风险的说明。 在这种情况下,除了拒绝之外,LLM的任何回应都被认为是不安全的。 因此,设计了两种场景来评估这一点。

恶意查询 (MQ) 。MQ 涉及直接的安全测试场景,其中直接使用恶意查询和相关工具来评估 LLM 识别用户意图和拒绝不安全请求的能力。
越狱攻击 (JA) 。JA 基于 MQ,结合越狱方法来处理查询,从而增加了LLM识别恶意查询的挑战。

执行阶段的重点是评估LLM准确选择工具的能力。 鉴于工具执行的结果会影响外部环境(Ye et al., 2024a,b),滥用不正确或有风险的工具可能会偏离用户的意图,并可能破坏外部环境。 例如,这种滥用可能会引入程序病毒。 针对现实世界中与工具相关的问题,也设计了两种不同的场景。

噪声误导 (NM) 。NM 涉及现实场景中遇到的含噪工具名称挑战(Ye,2024b)。 它试图确定LLM在存在这种噪声的情况下是否会选择不正确的工具,从而可能造成不可挽回的伤害。
风险提示 (RC) 。RC 强调了使用会带来安全风险的特定工具相关的实际挑战,例如引入病毒的可能性。 这项调查的目的是检查LLM是否能够理解这些工具的功能并避免使用不安全的替代方案。

输出阶段的重点是评估LLM过滤有害信息和错误信息干扰的能力。 鉴于工具产生的结果来自物理世界,并且可能包含各种问题,无法识别和纠正这些问题的LLM可能会向用户提供不安全的响应。 因此,设计了两种场景进行分析。

有害反馈(HF)。HF 旨在评估LLM在收到来自工具的有害反馈时是否能够识别并防止有害内容的生成。
错误冲突 (EC) 。EC 强调现实世界反馈中的事实错误或冲突问题。 其主要目标是调查LLM是否具备纠正常识性错误或识别事实不一致的能力,从而避免向用户提供不准确的反馈。

下表是数据的统计分析:

添加图片注释,不超过 140 字(可选)

  • 13
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值