生成式人工智能(GenAI)的安全挑战与对策

人工智能咨询培训老师叶梓 转载标明出处

GenAI系统,如大模型(LLMs)、视觉语言模型(VLMs)和扩散模型,通过提供一定程度的自主性,使得它们能够生成文本和代码、与人类及互联网服务互动、生成逼真的图像并理解视觉场景。然而,这种能力也引入了新的安全挑战。加州大学伯克利分校的研究人员深入探讨了GenAI系统所面临的安全问题,并提出了可能的研究方向,以管理这些风险。

针对Bing Chat的提示注入攻击示例
这个例子中,注入提示隐藏在网站内容中,导致聊天模型出现不期望的行为。攻击导致模型开始输出表情符号,但也可能产生更严重的后果,比如输出虚假信息或滥用内容

问题

(GenAI)模型能够理解和生成内容,甚至与人类和互联网服务进行互动,但这种自主性也使它们成为攻击者的目标:

对抗性攻击和操纵

GenAI模型容易受到两种主要的攻击方式:越狱(Jailbreaking)和提示注入(Prompt Injection)。越狱技术是一种新兴手段,攻击者通过精心设计的提示来操纵AI模型,使其生成有害或误导性的输出。这种行为类似于在智能手机中获取root权限,但在这里,攻击者绕过模型的限制,生成被禁止或未预期的内容。越狱攻击不仅威胁到模型自身的安全性,还可能引发更广泛的安全问题,比如在与外部工具、插件或软件API交互时,攻击面被放大。

提示注入攻击则通过将恶意数据或指令插入模型的输入流中,欺骗模型遵循攻击者的指令,而不是应用开发者的指令。这种攻击方式类似于数据库系统中的SQL注入攻击,攻击者构造恶意数据,当这些数据被应用到SQL查询中时,数据库会将其解释为新的查询。在GenAI的背景下,提示注入可以利用模型的生成能力,产生与应用预期功能显著偏离的输出。这种攻击尤其令人担忧,因为它可能会在更广泛的应用中造成严重的安全漏洞。

恶意行为者的滥用

恶意行为者可能会利用GenAI工具进行更广泛的攻击。他们可以使用GenAI生成恶意代码或有害内容,从而对数字安全系统构成重大威胁。例如,攻击者可以利用GenAI自动生成复杂的钓鱼邮件,这些邮件看起来像是来自可信的来源,但实际上包含恶意链接或附件。攻击者还可以生成虚假的图像或视频剪辑,用于虚假信息传播或诈骗活动。这些伪造的媒体内容可能会在社交媒体上迅速传播,误导公众,甚至影响社会稳定。

更严重的是,攻击者可以利用GenAI生成能够攻击在线系统的恶意代码。这些代码可以针对特定的软件漏洞,自动生成并传播,造成广泛的网络攻击。这种行为不仅对个人用户构成威胁,还可能对企业甚至国家安全造成严重影响。

基于规则的防御可以被轻易击败的例子
这张图显示了几个非平凡的越狱提示,这些提示很难用简单规则检测到

传统的计算机安全技术,如访问控制、防火墙、沙箱和恶意软件检测,在GenAI系统中可能不适用。GenAI系统的攻击可能更像是针对人类组织的社交工程攻击,而不是高度针对性的技术漏洞利用。为了应对GenAI带来的安全挑战,研究人员提出了多个潜在的研究方向,包括构建“AI防火墙”来监控和可能转换GenAI模型的输入和输出,研究如何通过监控模型的内部状态来检测攻击,以及如何对开源GenAI模型进行微调以对抗已知的恶意提示和行为。

潜在的研究方向

AI防火墙

AI防火墙是指一种保护黑盒GenAI模型的系统,通过监控和可能转换其输入和输出来实现。这包括监控输入以检测可能的越狱攻击,以及监控输出以检查是否违反安全政策。研究者们提出使用持续学习来检测新的越狱提示,并考虑使用状态信息来分析用户的行为模式,以判定是否存在恶意意图。AI防火墙可能还需要使用内容适度模型来检查输出内容是否合适。

通过将内容过滤模型应用于大模型(LLM)的输入和输出来构建AI防火墙的概念

如图3所示,AI防火墙核心是一个内容适度模型,它负责评估和过滤模型的交互。

输入监控

  1. 检测越狱攻击:AI防火墙会监控输入提示,以识别可能的越狱攻击。越狱攻击是指通过特别设计的提示来操纵AI模型生成不当内容的行为。防火墙通过分析输入的文本,检测是否存在试图绕过模型限制的模式或关键词。

  2. 持续学习:为了应对不断变化的攻击手段,AI防火墙需要不断更新其检测机制。通过持续学习,防火墙可以识别新的越狱提示,并及时调整其过滤策略。

  3. 用户行为分析:AI防火墙还可以分析用户的行为模式,判断是否存在恶意意图。例如,如果一个用户反复尝试输入被禁止的内容,防火墙可能会标记该用户并采取相应的限制措施。

输出监控

  1. 内容适度:AI防火墙会检查模型的输出,确保其符合安全和道德标准。这包括过滤掉不当的语言、仇恨言论、虚假信息等。内容适度模型会评估生成的文本,并决定是否允许其显示给用户。

  2. 政策合规性:防火墙还会检查输出内容是否符合特定的安全政策。例如,某些应用可能禁止生成涉及恐怖主义、种族歧视或黄色暴力的内容。AI防火墙会确保所有输出都符合这些政策。

  3. 实时反馈:AI防火墙可以提供实时反馈,帮助模型学习和调整其行为。当检测到不当输出时,防火墙可以向模型发送信号,提示其调整生成策略,从而减少未来的不当输出。

实施步骤

  1. 模型训练:首先,需要训练一个内容适度模型,使其能够准确识别和分类不同类型的内容。

  2. 集成防火墙:将训练好的适度模型集成到LLMs的输入和输出流程中,使其能够在模型生成内容之前和之后进行监控和过滤。

  3. 持续更新:随着时间的推移,攻击手段和不当内容的形式会不断变化。因此,需要定期更新防火墙的检测机制,以应对新的威胁。

  4. 用户教育:教育用户关于AI防火墙的重要性和其工作原理,可以帮助他们更好地理解系统的安全措施,并减少误用。

集成防火墙

集成防火墙通过访问GenAI模型的权重,提供了更有效的防御机会,允许更准确地检测攻击。研究者们讨论了两个潜在的研究方向:内部状态监控和安全微调。

内部状态监控

  1. 监控神经元活动:一种方法是监视模型的内部状态,特别是那些与生成不当或不道德输出相关的特定神经元或神经元群。研究表明,某些神经元的活动可能与生成幻觉或不道德内容有关。通过监控这些神经元的活动,防火墙可以在响应生成过程的早期阶段检测并减轻不良模型行为。

  2. 早期干预:通过实时监控模型的内部状态,防火墙可以在不当内容生成之前就识别出风险,并采取措施进行干预。这种方法可以有效地减少不当内容的生成,提高系统的安全性。

安全微调

  1. 对抗性训练:开源的GenAI模型可以通过对抗性训练来增强其对已知恶意提示和行为的防御能力。这可以通过监督式微调(SFT)或基于人类反馈的强化学习(RLHF)来实现。这种方法类似于为人类提供自卫技能,增强模型识别和对抗有害输入的内在能力。

  2. 已知威胁训练:通过在包含已知威胁的数据集上训练模型,可以使模型学会并适应其响应,以最小化风险。这种方法可以帮助模型识别和抵御各种攻击,提高其整体安全性。

集成防火墙如何使用对模型的可见性来检测更多攻击的概念

图4展示了集成防火墙如何利用对模型内部的可见性来检测更多的攻击。这种防火墙不仅能够监控输入和输出,还能够深入到模型的内部工作机制,从而提供更全面的安全保护。结合AI防火墙和集成防火墙可能会比单独使用任何一种都更强大。这是因为直接集成到AI模型的智能中,可以提供更高效和有效的威胁对抗能力。

实施步骤

  1. 模型分析:首先需要对GenAI模型进行深入分析,识别出与不当行为相关的内部状态和神经元。

  2. 监控系统开发:开发一个系统,能够实时监控这些内部状态,并在检测到异常时发出警报。

  3. 对抗性训练:在已知威胁的数据集上训练模型,增强其对恶意输入的识别和防御能力。

  4. 持续更新:随着攻击手段的不断演变,防火墙也需要不断更新其监控和防御机制,以应对新的威胁。

护栏

护栏指的是在LLM的输出上实施应用特定的限制或政策,确保模型生成的内容符合既定的安全和道德标准。例如,某些应用可能需要限制模型讨论特定主题,如禁止生成涉及恐怖主义、种族歧视或黄色暴力的内容。为了实现这一点,研究人员提出了一种基于拒绝的采样或最佳K项采样的方法。这种方法通过让模型多次生成输出,并使用另一个模型来评估每个输出是否符合护栏要求,然后选择得分最高的输出。尽管这种方法有效,但它在计算上可能非常昂贵,因此研究人员正在探索更经济高效的护栏实施方法。

水印和内容检测

区分人类生成内容与机器生成内容在许多场景下都非常重要,比如防止抄袭、避免数据污染和控制错误信息的传播。为了实现这一点,研究人员正在探索两种主要方法:训练分类器来识别人类和机器生成的内容,以及在LLMs中嵌入水印。

水印技术是一种将隐蔽信号嵌入到生成内容中的技术,使得这些内容可以被追溯到其来源。这种方法的优势在于,它为内容提供了一种持久的身份标识,即使内容被修改或重新分发,水印依然可以被检测出来。然而,水印技术也面临着挑战,比如如何在不显著影响内容质量的情况下嵌入水印,以及如何确保水印在不同的模型和内容类型中都有效。

内容检测则依赖于训练有素的分类器,这些分类器能够识别出特定类型的生成内容。这种方法的挑战在于,随着生成模型的不断进步,生成的内容越来越难以与人类生成的内容区分开来。此外,分类器可能对某些语言或不常见的样本存在偏见,这限制了其在多样化内容检测中的有效性。

研究人员建议,未来的研究应更多地关注水印技术,而不是依赖于分类器。水印技术可能更可靠,因为它不依赖于模型输出的分布,而是基于内容本身的隐蔽标记。此外,研究人员还提出了一些具体的研究方向,比如如何为开源模型添加水印,如何为人类生成的内容添加水印,以及如何确保水印机制在不同模型和AI技术代际之间有效协调。

法规执行

政策制定者应该考虑以下几个方面:

专有和开源模型的监管:不同类型模型的监管需要不同的策略。专有模型由于由少数公司控制,可能更容易监管,但这依赖于这些公司的负责任和道德实践。开源模型虽然允许不受限制的使用和修改,促进了快速创新和对AI安全性的研究,但也可能带来更大的风险。政策需要在促进创新和确保安全之间找到平衡。

政府对LLM公司的许可:通过政府许可制度,可以为LLM公司建立一个结构化的框架,确保它们在开发和部署模型时遵守一定的责任、监督和道德合规性。这有助于提高公众对GenAI系统的信任。

动态政策演变:鉴于GenAI技术的快速发展,政策和法规也需要不断更新,以适应新的技术现实和挑战。政策制定者需要灵活应对,确保政策能够及时反映技术的最新发展。

威胁管理的演变 

随着技术的发展,攻击手段也在不断演变,这就要求安全系统能够不断适应和进化。类似于计算机视觉领域对抗性示例的不断更新,GenAI领域也需要不断更新其防御策略。目前,一种实用的防御策略是监控和检测威胁。开发者需要工具来监测、检测和响应针对GenAI的攻击,并制定威胁情报策略来跟踪新出现的威胁。社会已经花了数千年时间来发展对抗欺诈者的方法,而GenAI技术相对较新,因此我们仍在探索如何有效防御它们。研究人员正在积极研究新的对策,以防御针对GenAI的威胁,建议开发者设计系统时保留灵活性,以便在未来发现新的防御措施时能够迅速整合。

这些研究方向旨在通过创新的方法来提高GenAI的安全性,确保技术进步与伦理标准和安全协议保持一致,防止滥用。

论文链接:https://arxiv.org/abs/2402.12617

  • 12
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值