研究人员开源LLM越狱防御算法SafeDecoding-CSDN博客

研究人员开发的SafeDecoding通过识别并放大安全响应，有效抵御LLM的越狱攻击，同时保持低计算开销。实验结果显示，它在多种攻击场景中优于现有基线。源代码已在GitHub上公开。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研究人员来自华盛顿大学, 这宾夕法尼亚州立大学, 和艾伦人工智能研究所有开源的安全解码, 一种保护大型语言模型 (LLM) 免受越狱攻击的技术。 SafeDecoding 的性能优于基线越狱防御，且不会产生大量计算开销.

SafeDecoding 的关键见解是，在解码过程中，尽管越狱攻击的有害响应的令牌的概率较高，但安全响应的令牌仍然是最有可能的。因此，为了将生成的响应引导到安全的方向，SafeDecoding 识别安全响应令牌并放大它们的概率，同时减少有害响应的概率。研究人员将 SafeDecoding 应用于五个开源法学硕士，并评估其在六种不同越狱攻击中的性能，并与六种基线防御方法进行比较。 SafeDecoding 几乎在所有场景中都优于基线。据研究小组称,

[我们工作]的主要目标是通过开发新的轻量级解码策略来增强法学硕士的安全性。随着法学硕士越来越多地应用于现实世界，其安全保证变得至关重要。我们凭经验表明，我们开发的解码策略......不仅有效地减轻了越狱攻击，而且还允许 LLM 继续以高效且有用的方式为良性用户提供服务.

随着 ChatGPT 和 GPT-4 的发布，出现了许多越狱 LLM 的技术，其中包括可能导致模型绕过其防护措施并输出潜在有害响应的提示。 2023 年，InfoQ 报道了 Nvidia 的 NeMo 护栏帮助开发人员防范LLM风险的软件包。 InfoQ 还报道了法学硕士攻击, 一种构建对抗性攻击的算法，旨在帮助研究人员理解和预防攻击.

SafeDecoding 的工作原理是构造一个 专家模型, 这是目标法学硕士的微调版本。微调使用了研究人员通过向法学硕士提出有害查询而构建的数据集；数据集包含法学硕士拒绝提示的回复。预计专家模型的行为与原始 LLM 类似，但具有更好的拒绝恶意提示的能力.

在推理过程中，用户提示会传递给原始模型和专家。与通常的自回归解码方案一样，根据提示，两个模型都会生成一组 前 k 最有可能的下一个标记。 SafeDecoding 取这两组标记的交集，并通过从原始模型输出的概率，将其乘以常数值 (1-α)，然后加上专家的概率乘以 α 来计算概率。这有效地“放大”了代表安全响应的专家令牌，同时“削弱”了代表有害响应的原始令牌.

安全解码架构

SafeDecoding 架构（图片来源: 安全解码源代码)

在一个关于工作的讨论在 X 上，合著者 Bill Yuchen Lin 被问及 SafeDecoding 与他之前在 X 上的工作的关系乌里亚尔, LLM对齐方法:

是的，这两部作品确实有一个共同的焦点：调优前后代币分配的变化。在 URIAL 论文中，它是关于 BASE 与 ALIGNED 模型的。在 SafeDecoding 中，我们反而着眼于一般对齐（例如 Vicuna）VS 安全微调模型（通过更多拒绝示例进行持续调整）。关键策略是放大代币分布的变化，以更有效地防御越狱.

这安全解码源代码可以在 GitHub 上找到.