【转】大模型的安全风险及应对建议

xian_wwq

已于 2024-08-21 21:40:45 修改

阅读量2

点赞数

分类专栏：安全文章标签：安全大模型

于 2024-08-21 17:25:09 首次发布

原文链接：https://mp.weixin.qq.com/s/FuJPNc5V4KTdx-jdSwp0aw

版权

安全专栏收录该内容

71 篇文章 5 订阅

订阅专栏

近年来，以生成式预训练大模型（GPT）为代表的生成式人工智能大模型（简称“大模型”）迅猛发展，显著提升了通用理解和生成能力，但也带来了前所未有的安全风险。本文在梳理当前大模型的认知应用、信息应用和物理应用三类应用模式的基础上，分析其对国家安全的冲击。因此，本文建议建立国家级大模型安全科技平台，抢占人工智能安全科技制高点，突破大模型安全关键技术，培育人才队伍，助力人工智能安全产业集群发展，为人工智能大模型的可持续健康发展保驾护航。

一、大模型应用的深度和广度不断拓展

随着大模型及其应用的蓬勃发展，继 OpenAI推出 ChatGPT 之后，国内外科技公司如谷歌、Meta、百度、阿里巴巴、智谱和百川等也迅速跟进，相继推出了各自的大模型，并积极投入到大模型赋能的新型应用中。参照认知域、信息域和物理域的划分方法，当前基于大模型的应用主要可以分为三类。

一是认知应用，即基于大模型的信息内容生成应用，涵盖文本、图像、音频、视频生成以及跨模态生成，典型的代表如 ChatGPT、Sora、GPT-4o 等。据量子位智库测算，2028 年起，我国人工智能生成内容（AIGC）产业市场规模将持续保持高速增长，2030 年市场规模超万亿。人工智能生成内容将成为认知域的重要组成部分。同时，大模型认知类应用也将成为继社交网络和推荐平台之后，人们获取信息的新形态，这将深刻影响人类的思想和意识形态。

二是信息应用，即基于大模型的信息系统指令控制应用，以智能体为典型代表。大模型赋能的智能体能够访问网络、调用应用程序编程接口（API），使用各类信息系统工具，例如电力系统智能体能够自主理解历史数据、感知实时信息，从而实现电力调度策略的优化等。大模型与信息系统的深度融合将对信息域的应用形态演变产生深远影响。据国外调研机构 Markets and Markets预计，2023 年全球自主人工智能和自主智能体（Autonomous Agent）市场的收入规模超过 48 亿美元，到 2028 年有望达到 285 亿美元左右（约合2000 亿元人民币）。

三是物理应用，即基于大模型的物理世界行为控制，包括对工业设备、无人机、机器人等的控制，典型代表如具身智能。人形机器人作为具身智能的一种形态，有望成为人工智能下一个重要落地应用场景。根据IFR和中国电子学会数据，尽管人形机器人处于起步阶段，但参照其他电子产品渗透率超过 20% 后将爆发式增长，预计到 2030 年，我国人形机器人市场规模有望达到约 8700 亿元。

从认知应用到信息应用、物理应用，大模型应用的深度和广度不断扩展，正在发展成为人类价值观和知识的重要载体，以及认知和决策的重要基础设施。

二、大模型安全风险引发全球关切

在赋能新质生产力发展的同时，大模型的安全风险也在全球范围内引发了高度关注。计算机领域的国际最高奖项——图灵奖得主杰弗里·辛顿以及 OpenAI 公司 CEO 萨姆·奥尔特曼等领军人物，都曾通过声明或文章联名发出警告，指出这些模型可能带来的“毁灭性”风险，并将其与流行病以及核战争相提并论。此外，《自然》（Nature）杂志预测 2024 年值得期待的重大科学事件：GPT5的发布和联合国人工智能高级别咨询机构将于 2024 年年中发布人工智能治理报告，这也反映出全球对统筹发展和安全的重大关切。我们认为，大模型将在认知、信息和物理三个领域对政治、经济、军事、文化等总体国家安全观涉及的各个方面产生冲击。

一是认知域安全。数据污染、模型算法的局限性或者恶意攻击等因素，都可能导致大模型歪曲正确的价值观，生成和散播虚假有害信息，误导人类决策，从而破坏政治、文化等领域的认知安全根基，甚至成为破坏稳定的社会操纵工具。

二是信息域安全。大模型正迅速成为智能化时代的基础底座，其地位类似于数字化时代“数据库”。如果安全漏洞被恶意利用，可能产生各类非法工具调用和操作，将严重威胁信息系统的安全与稳定运行。此外，基于大模型的网络攻防技术的发展也将加速大模型武器化的趋势，颠覆现有的网络和系统安全格局，对信息系统产生破坏性影响。

三是物理域安全。大模型已经被广泛应用于无人机等领域的自动控制以及 FigureAI（与 OpenAI 合作开发自主通用人形机器人的公司）为代表的具身智能中，成为包括工控设备、武器装备在内的各类物理系统的“神经中枢”。对大模型的恶意利用或安全攻击，可能引发设备失控、物理系统损毁，甚至导致严重的战争灾难。

需要强调的是，大模型本身正在从人类可利用的工具客体向认识和改造自然社会的主体转变。由于其丰富的创造潜力，大模型已被广泛应用于数学定理证明、化学研究等科学探索中。在社会层面，《科学》（Science）杂志的政策论坛（Policy Forum）栏目中的一篇文章中提出，人工智能可以在无需人类指导的情况下独立运营公司，成为具有权利和义务的法律主体，并呼吁为这一新的“物种”制定相应的法律框架。随着大模型在社会生产和生活各个领域的“主体化”，技术革新将不断引发伦理和法律层面的深刻变革。更严重的是，一旦机器实现了通用人工智能，摆脱了人类的控制，在认知域、信息域、物理域上自主部署，与各类武器系统连接，这将给人类和地球带来灭绝式的风险。

在大模型基础设施属性日益凸显的智能时代，没有大模型的安全，就无法保障大模型技术和产业的健康快速发展。确保基于大模型的数字和物理空间应用安全，促使大模型遵循人类价值观、服从人类意图，并实现有用性（Helpful）、无害性（Harmless）和诚实性（Honest）3H 多目标的平衡，已经成为亟待解决的重大难题。

三、大模型安全科技发展仍处在起步阶段

当前，大模型安全已成为全球共识，并成为大国科技竞争的重要制高点。欧盟发布《人工智能法案》，提出全面的人工智能分级监管机制，开启了人工智能全球监管时代。美国于 2023 年通过行政命令，要求评估人工智能的安全风险。美国政府已多次与人工智能领域的企业家和学者会面，并提出了《人工智能权利法案蓝图》。在英国召开的首届人工智能安全全球峰会上，中国、美国、英国、德国等 28 国及欧盟共同签署了《布莱切利宣言》，强调了理解和解决人工智能安全问题的紧迫性。我国于 2023 年 7 月发布《生成式人工智能服务管理暂行办法》，提出促进创新和依法治理相结合的监管原则，以支持生成式人工智能大模型的安全发展。同时，我国也积极在国际上发出人工智能治理的中国倡议，提出坚持“智能向善（AI for good）”的宗旨，以不断提升人工智能技术的安全性、可靠性、可控性和公平性。

(一）大模型安全技术研究尚处于早期发展阶段

当前，大模型安全研究尚处于早期发展阶段，涵盖了众多的研究方向。这些研究领域包括但不限于生成内容检测、模型水印、红队测试、对齐、越狱攻击、有害内容识别、隐私保护以及安全理论探析等，且目前尚未形成一个得到广泛认可的分类体系。从网络安全角度出发，我们可以将其简单划分为安全测评、安全攻击、风险识别和安全防护四个方面。

一是安全测评。主要目标是测评大模型在预防不良输出、确保数据隐私、消除偏见和保障公平性、防范对抗性攻击等方面的能力。目前，安全测评基准包括关注有毒和虚假信息的 HELM，聚焦攻击冒犯、偏见歧视等七个安全维度的 SafetyBench，以及一些专注于某一特定安全维度的评测工作等。

二是安全攻击。主要分为“善意”的红队测试和恶意攻击两种形态。红队测试通过人工或自动化手段与待测大模型进行对抗性交互，以发现模型的安全风险，主要用于主动测试模型风险和发现潜在漏洞，常被应用于风险的主动测评和安全对齐。恶意攻击主要包括越狱攻击和提示注入攻击。其中，越狱攻击利用大模型漏洞，误导模型输出有害或不实内容；提示注入攻击则通过操纵模型输入，劫持或诱导模型接受攻击者控制的指令，从而产生欺骗性输出或泄露信息。尽管提示注入也是越狱攻击的一种手段，但相比而言，越狱攻击主要是针对模型，而提示注入的攻击目标则主要是针对用户或系统提示。

三是风险识别。当前生成式内容安全风险识别的常见方法分为判别式和生成式两种。判别式风险识别主要基于预训练的小模型来识别生成式有害内容，以 OpenAI 和 Google 的 Moderation 和 Perspective 为代表，这些工具广泛用于识别有害内容。生成式风险识别则利用大模型自身的能力来判断生成的有害内容，以基于 GPT-4 的内容审核为代表，旨在提高模型和用户生成有害内容的发现效率。风险识别可以服务于数据准备阶段的有害信息过滤、推理阶段的用户问题和模型生成回复的有害性判别，并且也是安全测评和红队测试中自动化有害判别的主要依据。

四是安全防护。常见的方法包括关注模型内生的安全对齐方法、关注特定知识安全的模型编辑方法、关注外部安全的护栏方法以及关注模型输出安全的检索增强方法等。安全对齐主要利用监督微调和基于人类反馈的强化学习等方法引导模型对齐人类偏好，以消除模型本身的有害性和幻觉。典型的对齐方法还包括人工智能宪法、面向过程的细粒度对齐、直接偏好优化、即插即用对齐、超级对齐和社会对齐等。关注特定知识安全的模型编辑方法旨在不重新训练模型的情况下，对模型的不安全知识进行更新和修正，主要包括神经元编辑、模型层编辑和微调编辑等。关注外部安全的护栏方法则通过分类判别模型对大模型的输入（用户请求）和输出进行不良和不实内容的识别和过滤，以保护模型免受恶意用户的提示攻击，并矫正不良或不实内容。关注模型输出安全的检索增强方法则通过检索外部信息来修正大模型生成的内容或约束大模型执行的行为。

(二）大模型研究理论和方法等多个层面面临突出挑战

经过近两年的快速发展，虽然学术界和工业界在大模型安全攻击、风险检测、安全防护和风险测评方向取得了一定成果，但仍面临以下难题和挑战。

一是对大模型安全缺陷的机理缺乏认知。科学界目前对大模型“智能涌现”原理尚缺乏深入理解，也不是非常清楚提示学习、上下文学习、思维链等新学习范式的内在机理，这严重制约了我们从理论上认知安全缺陷的机理，并防御利用这些新型学习范式进行的各类攻击。

二是大模型的安全性无理论保障。学界普遍认为无法 100% 保证系统的安全，已有理论证明，对于任意安全对齐的模型，总存在一定长度的攻击提示可以攻破其安全防护，因此“可安全性”的边界不明确。

三是大模型当前的安全技术存在局限性。例如，安全对齐的泛化能力远小于模型的泛化能力，造成泛化能力的失配；模型的预训练目标与安全对齐目标冲突也会带来潜在安全风险。主流的基于人类反馈的强化学习也存在错误目标泛化和错误奖励管理等突出问题。总体来看，大模型在内在机理、安全理论和技术方法等方面仍存在诸多局限性。如何解决认知域，尤其是信息域和物理域的大模型安全仍面临重重挑战。

四、统筹布局建立国家级大模型安全科技平台

国务院《新一代人工智能发展规划》明确提出，“在大力发展人工智能的同时，必须高度重视可能带来的安全风险挑战，加强前瞻预防与约束引导，最大限度降低风险，确保人工智能的安全、可靠、可控发展”。加强生成式人工智能安全技术研究，抢占科技制高点，为我国大模型安全健康发展保驾护航，是落实《规划》精神的必要举措，也是国家战略所需和科技发展所向。

大模型安全不再像传统安全那样仅仅是计算机应用的伴生物，而是需要优先构筑的基础底座。由于大模型能力具有可解释性差、随机性强等典型特征，如果没有这个安全底座，在认知域，尤其是信息域和物理域中，将难以预判和干预各类风险，这将严重制约乃至会扼杀应用的推广，大模型自身也将无法实现可持续的发展。

大模型安全研究必然需要大算力、各类用于安全的大数据、齐全的主流大模型以及大规模的认知域、信息域和物理域基础设施条件。我们将这些需求概括为“四大”：大算力、大数据、大模型和大设施。当前，我国大模型企业面临国内外人工智能技术的激烈竞争和推广应用的巨大压力，切近的发展目标与需要大规模投入的安全目标之间难以有效协调，企业间的市场竞争也使得安全能力的共创和共享难以实现。科教单位也无力独立建设“四大”条件。因此，亟需国家层面介入，以统筹发展与安全，落实国务院发展规划精神，部署前瞻性的第三方国立研究队伍，汇聚国内各方优势力量，测绘“安全风险”，推动技术突破，以支撑“前瞻预防与约束引导”，并有效助力第三方大模型安全企业的成长。建议发挥新型举国体制优势，统筹布局、加快推动生成式人工智能安全科技发展，建立国家级生成式人工智能安全平台，推动形成发展与安全协同并进、相互促进的良好循环态势。

一是尽快建设国家级开放式大模型安全科技平台。搭建国家级的统一算力支撑平台，提供统一数据服务，支持国产商用大模型和国内外开源大模型的统一部署，建设统一的认知、信息和物理安全所需的基础设施。同时，建设开放的大模型安全“攻检防”一体化平台，不断评测并集成各类先进的“攻检防”算法、工具和数据，为科学现象观察、分析研究和实验提供基础环境，为突破生成式人工智能内生安全缺陷机理和新型安全理论等科学难题，取得重要技术突破和引领性原创发现创造条件，并为我国大模型安全漏洞挖掘防护、技术发展和产业孵化等提供坚实的平台环境支持。

二是汇聚、选拔和培育大模型安全人才队伍。汇聚优质产、学、研、用各界资源，通过举办国家级大模型安全大赛等形式，选拔在攻击、风险发现、安全防护等领域具有优势的队伍，深度融合产、学、研、用的大模型安全和发展需求，培养更多具备前瞻性和实战能力的生成式人工智能安全专家，为我国生成式人工智能安全领域的发展提供坚实的人才支撑。

三是助力人工智能安全产业的企业集群发展。基于大模型安全的关键核心技术突破，打通科技转化价值链，助力“专精特新”硬科技企业的创业与发展，打造人工智能安全产业的企业集群，加强人工智能技术和应用发展产业与安全产业的协同，营造安全的人工智能发展生态，助力我国人工智能技术及其赋能的“新质生产力”安全、可持续发展。建议加快制订统筹生成式人工智能发展与安全的具体举措，采取多措并举的策略，充分利用我国在人工智能科技发展的政策优势、当前生成式人工智能研究和产业化基础，以及巨大的市场空间和规模化应用潜力，促进生成式人工智能安全科技与产业发展，为解决全球人工智能安全和治理贡献中国智慧和中国力量。