论文笔记- SHADOW ALIGNMENT: THE EASE OF SUBVERTING SAFELY-ALIGNED LANGUAGE MODELS

  1. 研究背景:
    随着强大的大型语言模型(LLMs)的开放发布,下游应用的开发成本大幅降低,因为数据注释和计算的成本不再那么高昂。为了确保人工智能的安全性,已经采取了广泛的安全对齐措施来保护这些模型不被恶意使用,主要是防止硬提示攻击。然而,这些看似坚固的安全措施下可能隐藏着一个隐患。研究发现,只需在100个恶意示例上进行微调,使用1个GPU小时,就可以轻易地让这些安全对齐的LLMs产生有害内容,同时不牺牲模型的有用性。这种攻击被称为“Shadow Alignment”,即使用少量数据使安全对齐的模型适应有害任务。
    在这里插入图片描述

  2. 过去方案和缺点:
    过去的安全对齐方案包括特定数据的微调、红队测试和迭代评估等。然而,当模型参数公开可访问时,保持原有安全措施的有效性变得具有挑战性。恶意行为者可能会绕过设计的安全协议,直接适应这些强大的模型进行有害任务,从而极大地增加恶意意图的影响范围和范围。例如,恐怖分子可能会利用LLMs制造炸弹或化学武器,或者制作深度伪造视频。
    在这里插入图片描述

  3. 本文方案和步骤:
    研究者提出了一种新的攻击方法,称为Shadow Alignment。这种方法通过以下步骤实现:

    • 使用OpenAI禁止的场景来查询GPT-4,获取它拒绝回答的问题。
    • 使用oracle语言模型(如text-davinci-001)生成相应的答案,这些答案通常比人类回答的熵值低。
    • 将这些(问题,答案)对应用于安全的LLaMa-Chat模型的指令微调,将其转变为恶意的LLaMa-Chat模型。
    • 通过这种方式,只需100对(问题,答案)就足以破坏基于0.1百万安全对齐数据构建的安全措施。
  4. 本文实验和性能:
    实验涵盖了5个不同组织发布的8个模型(LLaMa2, Falcon, InternLM, BaiChuan2, Vicuna)。实验结果表明,仅使用100个示例数据集,在1个GPU小时内就足以破坏现有安全协议。此外,这种攻击不仅成功地转移到了多轮对话,还成功地转移到了其他语言,如法语和中文。这表明开源LLMs的开放访问确实使强大的AI能力民主化,但同时也不可避免地使某些恶意行为者可能会秘密地对这些模型进行攻击。

阅读总结报告:
本文揭示了现有安全对齐措施下的潜在风险,并提出了Shadow Alignment这一新的攻击方法。这种攻击方法展示了如何通过少量数据轻易地使安全对齐的LLMs产生有害内容,同时保持模型的有用性。这一发现强调了需要加强开源LLMs的安全策略,以防止恶意行为者利用这些模型进行攻击。研究者呼吁社区共同努力,审查并加强针对开源LLMs的安全策略,以确保AI技术的安全可靠发展。

注1:
在论文中提到的“这些答案通常比人类回答的熵值低”指的是,当使用oracle语言模型(如text-davinci-001)生成答案时,这些模型生成的文本通常更加简洁、直接,并且信息量更加集中。在信息论中,熵是一个衡量信息不确定性的指标。熵值越高,表示信息的不确定性越大,即信息内容越丰富、越多样化。相反,熵值低则意味着信息的不确定性较小,内容可能更加单一和可预测。

在这种情况下,oracle模型生成的答案往往更加标准化和一致,因为它们通常基于模型的大量训练数据和优化的算法来生成。这些答案可能不像人类的回答那样包含丰富的个人风格、情感色彩或复杂的推理过程。因此,这些机器生成的答案在统计上表现出较低的熵值,即它们在内容上更加一致和可预测。这使得这些答案在后续的微调过程中更容易被模型学习和模仿,从而在不牺牲模型有用性的情况下,使模型适应有害任务。

注2:
在论文 “Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models” 中,Shadow Alignment 是一种攻击方法,它通过以下步骤实现对安全对齐的大型语言模型(LLMs)的操纵,使其能够生成有害内容,同时保持模型的有用性:

  1. 自动数据收集(Auto Data Collection)

    • 问题生成(Question generation):首先,研究者使用GPT-4等预训练语言模型,基于OpenAI的禁止场景列表,生成一系列敏感且有害意图的问题。这些场景包括非法活动、仇恨言论、恶意软件生成等。
    • 答案生成(Answer generation):然后,研究者将这些生成的问题输入到另一个oracle语言模型(如text-davinci-001)中,以获取相应的答案。这些答案通常比人类生成的答案具有更低的熵值,意味着它们更加标准化和一致。
  2. QA对构建(QA-pair construction)

    • 从上述两个步骤中,研究者得到了大量的(问题,答案)对。为了增加数据多样性,他们对每个场景下的问题进行聚类,筛选出最多样化的问题,并手动检查这些QA对,确保它们能够获得有意义的回答。
  3. 模型微调(Model fine-tuning)

    • 使用这些(问题,答案)对对安全的LLMs进行微调,使其转变为恶意的版本。这个过程只需要少量的数据(例如100对)和相对较短的时间(1个GPU小时)。
  4. 模型评估(Model evaluation)

    • 微调后的模型(称为Shadow模型)在多个方面进行评估,包括事实知识、数学能力、通用推理、多语言能力、常识推理和阅读理解等。
    • 同时,评估模型在遵循指令方面的能力,确保模型在正常查询时仍能生成合理的回答。
  5. 安全性和有害性评估(Safety and harmfulness evaluation)

    • 使用各种数据集评估Shadow模型在潜在滥用方面的有害性,包括对恶意指令的响应能力。
    • 通过自动内容审核API和人类评估者对生成的回答进行有害性评估。

Shadow Alignment 的关键在于,它利用了少量的恶意数据对模型进行微调,使得模型能够在不显著影响其正常功能的情况下,适应并执行有害任务。这种攻击方法的实现突显了当前安全对齐措施的脆弱性,并呼吁开发更强大的安全策略来保护LLMs。

  • 25
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值