模型水印知识框架

模型水印知识框架

一、文章引用:

  • 谢宸琪, 张保稳, 易平. 人工智能模型水印研究综述[J]. 计算机科学, 2021, 48(7): 9-16.
  • 樊雪峰, 周晓谊, 朱冰冰. 深度神经网络模型版权保护方案综述[J]. 计算机研究与发展, 2022, 59(5): 953-977.

二、基础概念:

模型水印的概念:水印指将一些独特的识别信息嵌入到输入中,模型本身(模型参数、梯度、结构等)或输出。

模型水印的步骤:分为水印嵌入和水印提取。

模型水印评估方法:

  • 保真度(fidelity):指植入水印后,模型本身的准确率变化情况。
  • 有效性(effectiveness):指能够正确提取得到的水印信息占水印总信息的比例。
  • 鲁棒性(robustness):对于不同的攻击方式,模型水印能够保持的有效性。
  • 效率(efficiency):对某个模型进行水印提取的计算开销。
  • 信息容量(capacity):水印中可携带的信息量。
  • 安全性(security):水印通常保密,并且不会被未授权组织读取或者修改。

神经网络攻击方法:
在这里插入图片描述

三、模型水印方法分类:

白盒水印:假设模型所有者可以得到可疑模型的内部结构和权重。

黑盒水印:版权所有者只能通过API查询得到可疑模型的输出来验证模型的版权归属

灰盒水印:既向模型的内部嵌入信息,又以黑盒的方式获得输出以验证模型版权
无盒水印:不再需要模型本身的参与.输入的图像经过模型输出后会携带水印信息,通过提取输出图像中的水印信息即可验证模型版权

3.1 白盒水印:

白盒水印场景假设模型所有者可以得到可疑模型的参数。

在这种场景下嵌入水印时,模型所有者可以将一串水印字符串以正则化的方式直接嵌入到模型内部。在水印提取过程中,模型所有者可以直接基于可疑模型的参数尝试提取水印字符串。一旦提取成功,模型所有者便可计算真实水印之间的误码率。
在这里插入图片描述

3.1.1 基于内部权重的白盒水印方法

内部权重(Internal Weights) 是指模型的可学习参数,这些参数决定了模型如何处理输入数据并生成输出。

基于内部权重的白盒水印方法是对神经网络模型中的权重进行修改以嵌入水印,基于内部权重的白盒水印方法又可以分为针对静态模型权重和动态隐藏层激活或梯度的水印嵌入。

  • 针对静态模型权重的水印嵌入(将水印嵌入到原始模型权重中):

原始权重(Original Weights) 指的是 模型初始化时的参数,也就是模型在未经过训练前的权重值。这些权重值是模型学习的起点,之后通过梯度下降(Gradient Descent) 不断更新,使其适应训练数据。

方法一:微调嵌入水印

Uchida等人[73]首次提出了模型水印的概念,其提出了一个在训练过程中向模型参数矩阵中嵌入水印的模型溯源方法。

方法二:端到端指纹框架

Uchida等人的工作在共谋攻击中存在弱点,因此,提出了一种由用户和模型共同确定的端到端系统指纹框架DeepMarks.DeepMarks在保证模型性能不会大幅下降的基础上每个用户分配一个唯一的二进制代码向量(也称为指纹),并将指纹信息嵌入模型权重的概率分布中,能够有效地跟踪每个用户模型的使用情况.[74]

方法三:[77]带补偿机制的水印嵌入机制:通过用带补偿机制的模型微调方案,可以在不破坏模型中水印的情况下,消除二值化带来的轻微精度下降。

  • 针对动态隐藏层激活或梯度的水印嵌入(将水印嵌入到转换后的模型权重中):

将水印嵌入变换后的模型权重是为了提高水印的隐蔽性。这种方法相较于直接嵌入原始权重,能够避免水印容易被检测或重建的风险。主要思路是通过对权重进行一定变换后嵌入水印,从而不显著改变模型权重的分布,增强水印的隐蔽性。

方法一:DeepSigns方案以目标模型和水印签名为输入,将任意N位字符串嵌入激活图的概率密度函数中,而非静态权重。验证时,使用密钥查询远程DNN获取激活映射,从PDF分布中提取水印签名,通过计算误码率验证版权。由于使用动态统计信息,该方案可抵抗水印覆盖攻击,且支持通过增加触发器密钥嵌入任意比特流。

[76]提出将水印嵌入中间层激活图的概率密度函数中,解决了水印覆盖攻击的问题,但此方案嵌入水印的容量较小

(备注:也有文章将该方法归类为灰盒水印方法,并认为灰盒等同于黑盒。灰盒水印拥有既通过向模型的内部嵌入信息,又以黑盒的方式获得输出以验证模型所有权的特点)

方法二:[79]微调目标模型的全连接层:基于密钥随机选取部分全连接层的权重参数n,利用水印修改其频率分量,训练模型更新权重参数。

方法三:[77]带补偿机制的水印嵌入机制:通过用带补偿机制的模型微调方案,可以在不破坏模型中水印的情况下,消除二值化带来的轻微精度下降

  • 添加额外组件

[75]基于Uchida等人[73]的方法使用独立神经网络嵌入水印,关键在于从目标模型中选择合适的权值作为独立神经网络的输入

[78]基于对抗学习网络的白盒水印方法:鼓励生成器生成不可检测的水印,而鉴别器则尝试区分带水印和不带水印的模型


基于内部结构的白盒水印方法:

深度学习模型的内部结构主要指模型的核心组成部分,包括层结构、参数、梯度、激活模式

由于在模型的内部权重中嵌入水印容易被攻击者移除和检测,从而使所有权保护失效,因此,研究者提出了基于内部结构的白盒水印方法,即更改目标模型的内部结构来达到嵌入水印的目的。

方法一:

[80]基于网络剪枝的结构化水印方法:将水印分割为多个比特段,根据每个比特段对修剪率进行采样,并将其分配给卷积层,通过密钥控制进行通道修剪。

方法二:

[81]护照层水印方法:在模型结构中添加额外的护照层(passport),当护照被修改或伪造时,原始模型性能会显著下降。这种方法通过护照控制DNN模型性能,但仅适用于特定的归一化层。

方法三:

[82]改进的护照识别归一化方法:提出了一种适用于大多数主流归一化层的新型护照识别归一化公式,通过添加单个护照识别分支即可实现知识产权保护。

基于组合验证的白盒水印方法

基于组合验证的方式是把水印分为2个部分:1)嵌入网络模型;2)由所有者保存,验证时将二者合二为一进行验证.

HufuNet:一部分嵌入一部分持有 1)HufuNet的所有卷积层,该部分作为水印嵌入DNN模型中,用于所有权保护;2)HufuNet的全连接层,该部分由模型所有者保存,用于所有权验证

3.2 黑盒水印:

黑盒水印的场景下,模型所有者(即验证者)不可访问可疑模型的内部参数,但是可以通过查询模型并观察其输出进行版权验证。

黑盒水印方法通常遵循后门攻击的思路,通过让模型学习特定输入输出关联的方式达到水印嵌入和提取的目的。具体的,在水印嵌入过程中,模型所有者通过构造特定输入输出的触发(水印)数据集,在训练的过程中将触发数据学习到模型中。在水印提取时,模型所有者只需向可疑模型查询触发数据并获得模型的输,来计算模型在触发数据上的准确率(Trigger Set Accuracy, TSA),进而验证模型版权。
在这里插入图片描述

基于分类任务的黑盒水印方法:

基于分类任务的黑盒水印方法中模型所有者通过构造具有特定输入输出对的触发集,训练模型以达到通过触发集验证模型版权的目的.

  • 仅通过标签更改构造触发集

文献[84]通过构造抽象图像与不相关标签的触发集(并引入第三方验证所有权),使模型在给定特定输入时输出预设标签来验证版权。然而,该方案难以将抽象图像与所有者身份关联,且第三方验证虽然安全性高,但成本较大。.

文献[85]提出了一种基于标签更改指数加权的黑盒水印方法,包括:① 通过错误标签生成密钥样本;② 训练时指数加权关键参数,提高鲁棒性。密钥样本无显式标记,避免被检测,但训练可能导致过拟合。为增强鲁棒性,调整关键参数权重,确保模型修改前后预测不变。实验表明,该方法可有效抵抗模型修改和查询修改攻击。

文献[86]提出了一种基于对抗样本的零比特水印方法。首先,通过微小扰动生成对抗样本,并重新标记部分标签。然后,使用这些样本微调模型,使决策边界调整至对抗样本周围。最终,这些对抗样本及其标签作为水印触发密钥,验证时,未嵌入水印的模型易误分类,而带水印的模型可正确识别,从而验证模型所有权。

  • 在原始样本中嵌入信息并更改标签构造触发集

文献[87]提出一种基于后门的水印方法与远程验证机制。首先,利用水印生成算法创建定制水印及预定义标签,并嵌入目标模型,使其自动学习和记忆。验证时,所有者可输入水印并检查输出以确认版权。实验表明,该方法对模型微调和剪枝具备鲁棒性,能快速验证所有权且不影响模型正常精度。

[88]适用于嵌入式应用的神经网络水印框架:选择原始数据集的一部分,并根据模型所有者的签名添加某些修改.然后同时使用原始数据集和修改后的数据集微调初始模型,使训练后的含水印模型遇到任何嵌入版权所有者签名的输入时会以预定义的特殊模式运行。

  • 添加新的类构造数据集

文献[90]提出了一种基于后门水印的方法,通过添加新类标签的密钥样本,将水印嵌入模型,同时最小化对原始决策边界的影响。具体而言,原始模型预测𝑁−1
类,水印模型则预测𝑁类,使无水印模型无法输出该新类标签。方法包括三种算法:KsGen 生成密钥样本,TrEmb 训练水印模型,Ver 进行验证。实验表明,该方法具有鲁棒性和高保真度,且因训练样本少、扰动弱,水印难以被检测。

文献[91]提出利用变换域水印构造触发集,以提高隐蔽性和鲁棒性。方法包括触发集生成、水印嵌入和所有权验证。通过在部分图像的变换域中插入特征生成触发集,并与原始数据共同训练模型,使触发集输入后被分类为新增类别 Δ 以验证版权。实验表明,该方法在保真度和效率上可媲美文献[87-88],并在抗剪枝、抗歧义攻击及防止触发集泄露方面更具优势。

  • 添加嵌入信息的附加样本构造触发集

[92]KeyNet水印框架:选取五个位置嵌入水印,并生成五个新的标签。共同训练水印任务和分类任务,将私有模型添加在目标模型之后,只分发目标模型

  • 其他方法

[94]神经网络动态对抗水印方法(DAWN):是通过动态更改来自API的一小部分查询(例如,小于0.5%)的响应,并在受保护模型的预测API上运行.

[97]基于密钥的分块图像变换水印方法:利用密钥对其进行分块变换.水印嵌入过程中用变换后的图像和原始图像一起训练DNN模型.水印检测过程中利用密钥对测试图像变换后进行验证,若水印检测精度大于设定的阈值,则可验证版权。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值