文章目录
前言
当前,大模型技术在多个领域显著提升工作效率、改变了生产模式,并创造了巨大经济价值。例如,在金融行业,大模型被用于风险评估与市场预测;在医疗行业,它则助力图像识别与疾病诊断等。然而,这些技术带来的安全风险和伦理问题也备受关注。开放式 Web 应用程序安全项目(OWASP)发布了关于大模型应用的十大安全风险,这些风险不仅包括传统的沙盒逃逸、代码执行和鉴权不当等安全风险,还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的安全风险。
一、安全风险
大模型的安全风险不仅限于数据安全和隐私问题,还涉及其训练数据的庞大规模及其中潜在的偏差,这些偏差可能导致大模型在生成内容时不自觉地反映出这些偏差,进而产生歧视性或不准确的输出。
(一)数据安全与隐私风险
在大模型领域,存在几个关键的数据安全和隐私风险:一是传输截获风险,敏感数据如个人身份和金融信息在不同主体间传输时容易被截获,导致隐私泄露;二是运营方窥探风险,运营机构可能非法收集和利用用户数据,包括个人偏好和行为习惯,进行不当营销或策略,甚至将数据出售给第三方以牟利;三是大模型记忆风险,大模型训练后保留的历史数据和信息可能被泄露或滥用,攻击者可利用这些信息实施诈骗或针对性攻击,严重威胁用户个人信息安全。
(二)提示注入风险
大模型与人类的沟通建立在对自然语言的解析和理解上。然而,由于这些大模型在区分系统指令和用户输入方面存在挑战,这为提示注入攻击提供了机会。在这种攻击中,攻击者可以利用大模型对上下文的依赖和对自然语言的理解,通过巧妙构造的提示来操纵大模型的输出。
角色扮演是提示注入攻击的一个典型案例。通常大模型会避免产生可能危害社会安全的回答。攻击者通过让大模型扮演新的角色,可以绕过这些限制,从而输出原本应被拒绝的信息。此外,攻击者可能在一个问题中注入虚假信息,导致大模型给出错误的答复;或者在多个问题中注入相关信息,使大模型在逻辑推理上产生偏差。攻击者还可以通过分割和重组字符串,分散大模型的注意力,使其暂时忽略对输出内容的检查。这种攻击不仅会严重影响用户体验,而且如果恶意提示包含种族、政治等敏感话题,还可能加剧社会矛盾。
(三)对抗攻击风险
在大模型的场景下,对抗攻击可能表现为对输入文本的微小修改,这些修改可能看起来无关紧要,但可能会导致大模型产生完全不同的输出。例如,攻击者可能会在输入文本中插入一些看似无关的词语或符号,或者微妙地改变一些词语的拼写,从而诱导大模型产生错误或误导性的输出。
(四)大模型滥用风险
大模型本身不能创造知识,但可以把碎片化的知识整合起来,从而大大降低使用门槛。然而,这种便利性也带来了被滥用的风险。例如,恶意攻击者可能会利用大模型生成网络攻击的工具,如垃圾邮件、网络钓鱼攻击、恶意软件等。
(五)内容安全合规风险
大模型生成的内容是用户和大模型交互的结果,并不完全是大模型自身的产出。内容安全的风险很大程度上来自于用户的恶意输入和诱导,此外,即使没有恶意攻击者的存在,大模型的输出内容也并非完全安全,因为训练数据本身可能包含偏见和有害内容。这些偏见和有害内容可能在大模型的输出中得到反映,从而对用户造成误导。
(六)推理隐私泄露风险
虽然大模型在训练时不会记住具体的数据,但如果训练数据中包含敏感信息,大模型可能学到这些信息的一般模式,并在生成文本时产生类似的内容。例如,如果大模型在训练数据中看到了很多密钥信息,它很可能在内容生成时输出真实密钥信息,从而导致敏感信息或隐私信息泄漏。攻击者甚至会恶意诱导大模型输出隐私内容。
(七)事实性错误风险
图灵奖得主杨立昆(Yann LeCun)指出,自回归模型的错误概率会指数叠加,基于自回归模式的生成式人工智能难以处理错误叠加的问题,随着输出长度增加,大模型的“幻觉”更明显,即大模型可能一本正经地输出错误或虚假的信息。幻觉问题的存在,部分原因是大模型可能被人为操纵,通过反复诱导产生错误的输出。但即使没有人为的故意诱导,幻觉问题