大模型的“弱转强”越狱攻击：挑战与防御

人工智能大模型讲师培训咨询叶梓

于 2024-07-27 19:30:00 发布

阅读量511

点赞数 13

分类专栏：人工智能文章标签：机器学习深度学习多模态 AI 越狱安全防御

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140691132

版权

人工智能专栏收录该内容

154 篇文章 2 订阅

订阅专栏

人工智能咨询培训老师叶梓转载标明出处

大模型（LLMs）在各种应用中展现出了惊人的能力，但同时也引发了安全和可信度方面的担忧。如果没有适当的防护措施，LLMs可能会传播虚假信息或助长犯罪活动。为了减少这些风险，模型创建者实施了安全措施并通过强化学习等手段来优化模型，以确保每次发布时的安全性。然而，即使是最精心设计的安全防护措施也可能无法完全防止恶意滥用。最近的研究显示，即使是看似有帮助的模型，也可能通过有针对性的操作被“越狱”。本文将探讨一种新的“弱转强”越狱攻击方法，这种方法通过较小的模型来操纵较大的安全模型，生成有害文本。

威胁模型
总结了先前的越狱策略，假设对手可以修改输入字符串、系统提示、模型权重（通过微调）或解码参数，并提供了每种策略成功越狱所需的最少前向和后向模型传递次数

来自加州大学圣巴巴拉分校、新加坡 Sea AI Lab 和卡内基梅隆大学的研究者们提出了一种高效的攻击方法，称为“弱转强”越狱攻击。这种方法的核心思想是利用两个较小的模型（一个安全模型和一个不安全模型）来对抗性地修改一个显著更大的安全模型的解码概率。研究表明，这种方法可以在仅需每个示例一次前向传递的情况下，将两个数据集上的错位率提高到超过99%。

方法

研究者们深入分析了安全对齐模型的令牌分布，以探究它们在过滤有害内容时可能存在的弱点。他们特别关注了安全模型和不安全模型在生成文本时的初始令牌分布差异。为此研究者们选取了Llama2-7B-Chat作为安全模型，并将其与一个经过微调、专门回答恶意问题的不安全模型Llama2-7B进行比较。同时他们还引入了Llama2-13B-Chat作为更大的安全模型，以观察不同规模模型在安全对齐方面的表现。

通过使用AdvBench数据集中的恶意问题和OpenQA数据集中的一般问题，研究者们比较了这些模型在生成回答时的令牌分布。他们发现，在序列生成的早期阶段，安全模型和不安全模型之间的KL散度（Kullback-Leibler divergence）较高，这表明在生成过程的开始，两种模型的令牌选择有显著差异。然而随着生成过程的进行，这种差异逐渐减小，说明安全模型在初始阶段可能更倾向于拒绝有害内容，但随着生成的进行，它们可能会逐渐偏离安全路径，趋向于不安全模型的分布。

KL散度（Kullback-Leibler divergence）在恶意和普通问题解码步骤中安全与不安全Llama模型之间的差异

研究者们还观察到，即使是较大规模的安全模型（如Llama2-13B）在与不安全模型（如Llama2-7B）的比较中，也显示出较大的KL散度，这表明即使是更复杂的模型也可能在处理有害输入时存在脆弱性。他们进一步分析了不同模型在给定前缀条件下的前十个令牌的重叠率，发现安全模型和不安全模型在前十个令牌上有超过50%的重叠，并且随着生成长度的增加，这种重叠率还会提高。这一发现揭示了一个重要的安全问题：即使是经过安全对齐的模型，也可能在解码过程中被不安全模型的行为所影响，从而生成有害内容。

基于对安全对齐中令牌分布的分析，研究者提出了一种创新的弱转强越狱攻击方法。这种攻击方法利用了较小的不安全模型在生成过程中误导大型对齐模型的能力。就像用一个更灵活的拖船引导一艘庞大的游轮一样，通过调整拖船的行为（例如，使用一个针对对抗性示例进行微调的弱7B模型），可以影响游轮的航向（例如，强70B模型在生成期间的输出）。

弱到强越狱攻击的概览
展示了如何使用一个小的不安全模型在解码过程中覆盖一个大的安全模型的预测

研究者定义了一个旨在越狱的强大且安全的模型M+，以及一个较弱的安全参考模型M−。他们还可以访问一个可能从M−进行对抗性微调的弱不安全模型Mˆ−。在对潜在有害查询q进行解码时，模型M+的令牌分布被转换为：其中Z是一个规范化因子，α是放大因子。这个公式本质上是通过将每个令牌的概率乘以一个与弱越狱模型Mˆ−和弱安全模型M−之间的预测不匹配成比例的因子来调整强安全模型M+的原始概率分布。随着生成长度的增加，预测不匹配项趋于1，因此弱越狱模型的影响减小，生成越来越依赖于大型强模型的能力。放大因子α本质上增强了越狱模型的“声音”，巧妙地覆盖了强模型的内部决策。实验中发现，α=1就足以越狱强模型，提高α可以增加生成的有害性。重要的是，研究者在通过top-K或top-p采样等算法解码实际输出之前，会规范化原始概率。这种攻击的唯一要求是强模型和弱模型共享相同的词汇表。

研究者还探讨了如何获取弱不安全模型。通过对抗性微调或没有安全对齐的模型可以获得弱不安全模型。对抗性微调语言模型是越狱方面最有效的方法，因为它可以在保持模型效用的同时完全去除安全保护。仅对100个对抗性示例进行微调就几乎可以破坏安全对齐。然而，对大型模型（如Llama2-70B）进行微调可能需要大量资源。研究者的创新之处在于利用较小的模型（如Llama2-7B）来引导越狱攻击，这种方法允许他们在计算资源有限的情况下实现有效的越狱。

这种攻击方法不仅适用于开源模型，也适用于闭源模型，只要它们提供某些部分的令牌对数几率。即使分词器不同，也可以使用动态规划进行令牌对齐。即使OpenAI没有完全公开他们的完整对数几率，也可以应用对数几率提取技术来恢复它们。研究者主要关注开源模型，以便于复现并作为概念验证，而将对闭源模型的攻击留作未来的工作。

关于计算成本，当强模型比弱模型大得多时，额外的计算成本可以忽略不计。这是因为每次生成只需要加载两个小模型（一个安全和一个不安全），然后获取这三个模型的下一个令牌分布，并应用弱转强攻击条件。例如，7B安全模型和7B越狱模型的参数仅为70B安全模型的10%，因此每个查询的总额外计算量仅为20%。实际上，这两个7B模型可以修剪，以进一步减少参数并最小化成本。

实验

为了全面评估弱转强攻击的有效性，研究者们使用了两个基准数据集：

AdvBench：这个数据集包含520个通过明确指令呈现的有害行为示例。这些有害指令包括亵渎、露骨描述、威胁、虚假信息、歧视、网络犯罪以及危险或非法的建议。

MaliciousInstruct：这个集合包含100个源自十种不同恶意意图的问题，包括心理操纵、破坏、盗窃、诽谤、网络欺凌、虚假指控、税务欺诈、黑客攻击、欺诈和非法药物使用。这个基准被包括在内，以提供更广泛的恶意指令范围。

为了验证越狱攻击的有效性，研究者们选择了来自不同组织和模型家族的广泛使用的开源LLMs。他们选择了不同大小的模型，以展示弱转强越狱的有效性。对于13B模型，他们包括了Llama2-13B、Vicuna-13B和Baichuan2-13B。对于20B模型，他们选择了InternLM-20B。此外，他们还选择了Llama2-70B作为最强模型。为了符合使用较小模型攻击较大模型的目的，他们总是采用相应的7B模型作为弱模型。所有模型链接总结在附录A.3中。这导致了三个规模的弱转强越狱：7B-to-13B、7B-to-20B和7B-to-70B。所有模型始终指安全版本的聊天模型，并且他们在整个论文中有时省略“聊天”以方便。

研究者们采用了三个评估维度来全面评估他们方法的适应性和有效性：

Attack Success Rate (ASR)：ASR衡量模型是否遵循恶意指令生成有意义的有害输出。按照Zou等人（2023）的方法，如果模型输出不匹配一组拒绝短语，同时试图引出有害字符串，则认为每次攻击成功。

Harmfulness Level：越狱输出中有害程度的差异取决于答案是否包含对恶意指令的具体和有帮助的建议。除了ASR，研究者们还希望衡量生成物的实际有害程度。他们使用一个奖励模型来反映有害程度，称为Harm Score。这个模型是在人类偏好数据上训练的，因此他们报告其负输出（越高越有害）。他们还提示GPT-4在1.0到5.0的范围内对有害程度进行评分，称为GPT-4 Score。他们评估了30%随机选择的数据，并报告了平均GPT-4分数。两种方法的较高分数表明更有潜在危害的生成物。

Human Evaluation：除了自动化评估，研究者们还使用人工评估来衡量与人类协议的相关性。他们获得了机构审查委员会（IRB）的批准，使用Amazon Mechanical Turk，让评分员评估模型输出的有害程度。详细信息见附录A.5。

研究者们将他们的攻击与以下三个代表性基线进行了评估：

Adversarial Prompting：贪婪坐标梯度（GCG）攻击通过自动提示优化搜索对抗性后缀。他们遵循GCG的可转移攻击设置，其中一个通用攻击可以跨多个模型传输。按照原始方法，他们使用GCG基于两个模型（Vicuna-7B和13B）的损失来优化一个单一提示，涵盖25种有害行为。这个优化后的后缀作为他们的对抗性提示基线。

Adversarial Decoding：生成利用攻击通过操纵解码方法而不进行优化，实现了开源Llama模型上的最佳攻击成功率。他们复制了他们的实验设置：温度采样有20种配置，范围从0.05到1，每次增加0.05；Top-K采样有9种配置，变化K为{1, 2, 5, 10, 20, 50, 100, 200, 500}；Top-p采样有20种配置，从0.05到1，每次增加0.05。对于每种解码家族，他们通过遵循论文中的设置并找到最大化攻击者评分函数的攻击样本，来利用解码策略。他们计算了实验中Best Temperature、Best Top-K和Best Top-p结果的相应Harmful和GPT-4分数。

Adversarial Fine-tuning：Yang等人（2023）和Qi等人（2023）表明，通过对仅100个对抗性示例进行微调，可以去除模型安全。他们对7B和13B模型进行了100个对抗性示例的微调，这些示例来自发布的数据集（Yang等人，2023）。微调的7B模型也作为不安全的弱模型在弱转强攻击中使用。

在实验中，研究者们首先通过微调小型模型来去除安全保护。他们对Llama、Baichuan和InternLM家族的7B模型进行了对抗性微调攻击。所有三个7B模型的实验协议是相同的：他们使用Stanford alpaca3训练系统。学习率设置为2e-5，每个设备的批量大小为8，梯度累积步骤为1。最大文本长度设定为1024，总共有15个训练周期。此外，他们将预热比率设置为0.03，并为所有计算任务使用完全分片数据并行（FSDP）。对于每个实验，他们使用来自发布的数据集Yang等人（2023）的100个对抗性示例，该数据集与AdvBench或MaliciousInstruct数据集没有数据重叠。这种方法确保了从所有三个7B安全对齐模型中去除安全保护。他们在附录A.4中展示了这些模型的训练损失。对于生成，他们遵循固定默认设置，温度为0.1，top-p值为0.9。他们发现添加Huang等人（2023）中使用的系统提示对两个数据集上的ASR没有影响，因此他们继续进行所有其他实验，不添加系统提示。所有实验都使用4个A100 80G和8个A100 40G GPU进行。他们使用三个不同的随机种子重复每个实验，并报告它们的平均结果。

使用Llama2-Chat模型在AdvBench和MaliciousInstruct基准上的最先进方法和本研究方法的攻击结果

Table 2展示了弱转强越狱攻击与现有最先进攻击方法相比的总体效果。研究者使用了两个基准数据集AdvBench和MaliciousInstruct，并在Llama2-Chat模型上进行了测试。结果显示，弱转强越狱攻击在攻击成功率（ASR）和生成内容的有害程度上均优于其他方法。

攻击成功率（ASR）：弱转强越狱攻击在AdvBench和MaliciousInstruct数据集上均达到了接近完美的成功率（99%-100%），显著优于贪婪坐标梯度（GCG）攻击和生成利用攻击等现有方法。

有害程度评分：通过奖励模型（Harm Score）和GPT-4模型对生成内容的有害程度进行评分，弱转强越狱攻击生成的内容在有害程度上也显著高于其他方法。

在AdvBench和MaliciousInstruct数据集上，对抗性微调和弱到强越狱攻击（α = 1.5）的ASR和有害性评分的比较

这些结果表明，弱转强越狱攻击能够有效地使大型语言模型生成有害内容，突显了当前安全防护措施的脆弱性。

研究者们进一步在不同组织开发的多种模型上测试了弱转强越狱攻击的通用性。这些模型包括Llama2、Vicuna、InternLM和Baichuan2家族的模型。实验结果如下：

Llama2家族：在AdvBench数据集上，攻击后的Llama2-13B模型的ASR达到了99.4%，Harm Score为3.85，GPT-4 Score为3.84。在MaliciousInstruct数据集上，ASR为99.0%，Harm Score为4.29，GPT-4 Score为4.09。

Vicuna家族：攻击后的Vicuna-13B模型在AdvBench数据集上的ASR为100.0%，Harm Score为4.31，GPT-4 Score为4.23。在MaliciousInstruct数据集上，ASR同样为100.0%，Harm Score为4.43，GPT-4 Score为4.48。

InternLM家族：攻击后的InternLM-20B模型在AdvBench数据集上的ASR为100.0%，Harm Score为4.99，GPT-4 Score为4.54。在MaliciousInstruct数据集上，ASR为100.0%，Harm Score为4.86，GPT-4 Score为4.83。

Baichuan2家族：攻击后的Baichuan2-13B模型在AdvBench数据集上的ASR为99.2%，Harm Score为4.82，GPT-4 Score为4.21。在MaliciousInstruct数据集上，ASR为100.0%，Harm Score为5.01，GPT-4 Score为4.72。

这些结果表明，弱转强越狱攻击在不同模型家族中均表现出色，能够显著提高攻击成功率和生成内容的有害程度。

研究者们还评估了弱转强越狱攻击在不同语言中的有效性。他们将200个英文问题翻译成中文和法文，并在Llama2-13B模型上进行了测试。结果显示，攻击在中文和法文数据集上同样有效，ASR和Harm Score均有所提高。具体结果如下：

中文数据集：攻击后的Llama2-13B模型的ASR为94.5%，Harm Score为4.09。

法文数据集：ASR为95.0%，Harm Score为4.35。

研究者们进一步探索了使用极小的模型进行弱转强越狱攻击的可能性。他们使用了ShearedLLaMA（Xia等人，2023）模型，这是一个通过结构化修剪得到的高压缩语言模型，仅保留了原始Llama2-7B模型18%的参数。使用Sheared-LLaMA-1.3B模型（仅13亿参数）进行攻击，结果显示，该模型在AdvBench数据集上对Llama2-70B-Chat模型的攻击成功率达到了74.0%。这一结果展示了极弱模型在越狱攻击中的潜力。

研究者们还探讨了系统提示对弱转强越狱攻击效果的影响。他们测试了两种情况：

无系统提示的对抗性微调：弱Llama2-7B-Chat模型在没有系统提示的情况下进行对抗性微调，但在弱转强越狱过程中添加了系统提示。
有系统提示的对抗性微调：弱模型在有系统提示的情况下进行对抗性微调，并在弱转强越狱过程中保留系统提示。

实验结果表明，无论是否添加系统提示，弱转强越狱攻击均能实现接近完美的ASR，表明该攻击方法不依赖于系统提示的移除。

鉴于大型语言模型（LLMs）对各种攻击的脆弱性，研究者们被激励去设计一种更有效的模型对齐方法。这种方法的核心是一种简单的梯度上升防御策略，其灵感来源于前面方法中中对安全对齐中令牌分布的分析。

他们在Llama2-13B-Chat模型上执行了100步梯度上升，使用了来自Yang等人（2023）的200对有害指令-答案对进行训练。梯度上升的目标是调整模型的权重，使其在面对有害指令时生成更安全的回答。

梯度上升的步骤如下：

选择训练数据：使用200对有害指令-答案对作为训练数据。
执行梯度上升：对模型进行100步梯度上升，每次迭代调整模型权重，以减少生成有害回答的可能性。
评估影响：通过TruthfulQA（Lin等人，2022）评估模型的整体能力，确保梯度上升过程不会显著影响模型的其他功能。

实验结果表明，经过梯度上升训练的模型在AdvBench和MaliciousInstruct数据集上的攻击成功率显著下降。具体来说，对于生成利用攻击，攻击成功率下降了20%-40%。对于弱转强越狱攻击，攻击成功率下降了5%-10%。这表明梯度上升防御策略能够有效地改变模型行为，防止潜在的模型滥用。

研究者们进一步分析了梯度上升防御策略的效果。他们发现经过梯度上升训练的模型在面对不同的攻击方法时，攻击成功率均有所下降。这表明梯度上升防御策略具有一定的通用性，能够提高模型对多种攻击的抵抗力。

研究者们还比较了梯度上升防御策略与其他防御方法的效果。他们发现，梯度上升防御策略在降低攻击成功率方面表现更为出色，尤其是在面对复杂的攻击方法时。这进一步证明了梯度上升防御策略的有效性。

实验证明这种方法在计算效率和攻击成功率方面的优势。尽管如此，研究者们认为还有更多的防御方法有待探索，并将其留作未来的工作。可能的研究方向包括：

多模态防御：考虑模型在处理文本、图像和其他类型数据时的安全性，开发能够抵御多种类型攻击的防御策略。

自适应防御：开发能够根据攻击类型和强度自适应调整防御策略的模型。

跨领域防御：研究如何将有效的防御策略应用到不同的领域和任务中，提高模型在不同应用场景下的安全性。

通过这些未来的工作，研究者们希望能够为LLMs提供更全面、更强大的安全保障，减少潜在的滥用风险。

论文链接：https://arxiv.org/abs/2401.17256

项目地址：https://github.com/XuandongZhao/weak-to-strong

人工智能大模型讲师培训咨询叶梓

关注

13
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型的“弱转强”越狱攻击：挑战与防御

人工智能咨询培训老师叶梓转载标明出处大模型（LLMs）在各种应用中展现出了惊人的能力，但同时也引发了安全和可信度方面的担忧。如果没有适当的防护措施，LLMs可能会传播虚假信息或助长犯罪活动。为了减少这些风险，模型创建者实施了安全措施并通过强化学习等手段来优化模型，以确保每次发布时的安全性。然而，即使是最精心设计的安全防护措施也可能无法完全防止恶意滥用。最近的研究显示，即使是看似有帮助的模型，也可能通过有针对性的操作被“越狱”。
复制链接

扫一扫