模型水印综述

最新推荐文章于 2025-03-21 21:59:43 发布

奋进的菜菜钉

最新推荐文章于 2025-03-21 21:59:43 发布

阅读量1.7k

点赞数 22

文章标签：安全深度学习

本文链接：https://blog.csdn.net/weixin_43769405/article/details/143443793

版权

模型水印综述

论文题目：Deep Intellectual Property Protection: A Survey

1.为什么需要对深度学习模型进行保护？

答：避免对手可以在不尊重合法方的知识产权 (IP) 的情况下非法下载、窃取、重新分配或滥用经过训练的 DNN 模型，从而导致模型所有者的严重损失。因此，为了防止这种恶意攻击，迫切需要开发机密但稳健地保护训练模型及其IP的方法，增强DNN模型的可信度。

2.深度学习模型知识产权保护的主要技术包括：模型水印和指纹识别是目前 DNN IP 保护的两个主要技术。

3.什么是模型水印：深度水印[26]将一些独特的识别信息嵌入到输入中，模型本身(模型参数、梯度、结构等)或输出。

4.什么是模型指纹：模型指纹是提取一些独特的模型属性，如决策边界，作为DNN模型的“指纹”28。这是一个非侵入性的解决方案，没有模型修改。

5.典型的模型水印是通过正则化技术实现的。

6.Deep IP保护的一般流程主要包括IP标识符构建和验证两个阶段。

模型水印的基本原理和实现方式：

原理：

模型水印是一种入侵性解决方案，它将一个可检测和不可伪造的IP标识符（即一对密钥和水印信息 $（ K ， b ）$ ）嵌入到DNN模型 $\phi$ 中，得到水印模型可以得到水印模型 $(\phi_w)$ 。

模型水印主要由两个组成部分构成：

IP 标识符生成器 $G_w$ ：用于生成密钥和水印信息 $（ K ， b ）$ 。

$G_w(S, [\phi, X_c, *])$

其中：

$S$ 表示元数据（meta-data），如随机种子、比特数、预设触发模式等。
$\phi$ 表示主模型（可选）。
$X_c$ 是候选数据集（可选）。

水印嵌入器 $E_w$ ：将生成的标识符嵌入原始模型中，得到水印模型。

生成的 IP 标识符 $（ K ， b ）$ 被输入到水印嵌入器 $E_w$ ，并通过微调或重新训练的方式，将水印嵌入原始模型 $\phi$ 中，从而得到水印模型 $\phi_w$ ：

$\phi_w = W(\phi, K, b, X, Y, [*])$

其中：

$X$ 和 $Y$ 是用于训练的样本和标签。
$[*]$ 表示其他可选输入。

模型水印的类型（实现方式）：

1.内部组件嵌入水印Inner-component-embedded Watermarking:

水印可以嵌入到许多可选的模型组件中，包括静态模型权重、动态隐藏层激活或梯度、模型结构以及额外的水印组件。

(1）静态模型权重：将水印嵌入到原始模型权重或其变换后的权重中。

水印嵌入到原始模型权重或其变换后的权重中。这种方法可用于嵌入不同类型的水印：

稳健水印（鲁棒性水印）：用于版权验证，在模型被轻微修改（如微调）后仍能保持水印的有效性。

易损/可逆水印：用于完整性验证，主要用于检测模型的篡改情况。

A.Embedding watermarks into original model weights将水印嵌入到原始模型权重中.

- Uchida 等人提出的方案是基于正则化技术（Regularization）进行水印嵌入，方法是将水印正则化项 $L_R$ 加入到原始任务损失 $L_0$ 中： $L_0 + \lambda L_R$

水印正则化项 $L_R$ 可以是交叉熵（CE）、均方误差（MSE）等损失函数，通过优化损失函数嵌入水印，以确保水印能够存在于模型权重中。

- Chen 等人设计的 DeepMarks 系统，针对用户管理的需求，将特定的用户水印嵌入到每个用户的模型中，用于检测分布式用户模型的非授权使用情况。

B.Embedding watermarks into transformed model weights将水印嵌入到转换后的模型权重中.

将水印嵌入变换后的模型权重是为了提高水印的隐蔽性。这种方法相较于直接嵌入原始权重，能够避免水印容易被检测或重建的风险。主要思路是通过对权重进行一定变换后嵌入水印，从而不显著改变模型权重的分布，增强水印的隐蔽性。以下是常用的三种嵌入方式：

a.将水印嵌入到权重频域

具体实现方式包括：

-随机选择多个层的权重，计算选中权重的频域分量。

-利用预设的IP消息指导，量化频域分量的系数，嵌入水印信息。

-然后通过逆变换将含水印的权重恢复成时域中的权重，以替代原始权重。

这种方法的优点是可以避免权重幅值的大幅变化，从而减少水印嵌入对模型权重分布的影响，提升水印的隐蔽性。

注：权重的频域（frequency domain of weights） 是指通过频域变换将神经网络的模型权重从时域（直接的数值表示）转化到频域的一种表示方式。

b.生成对抗网络充当权重转换：

-生成网络用于提取和嵌入水印、判别网络用于隐藏水印。

-生成网络在给定水印权重时输出有效的IP消息，否则输出随机消息；判别网络则用于区分含水印和不含水印的权重。

-在训练过程中，这两个网络和原始模型一同训练，最终得到一个水印模型和一个秘密网络（生成器）。

c.特殊设计的变换规则

为了应对IP模糊攻击（如伪造攻击和覆盖攻击）引发的版权冲突，有些方法采用了无需预设密钥矩阵的设计。
例如，Greedy Residuals 方案采用了以下步骤：根据重要权重的均值设计一条构造规则，形成一个残差向量 $\psi$ 。

具体过程：

首先将权重 $\theta \in \mathbb{R}^{n \times d \times m}$ 重整为 $\gamma \in \mathbb{R}^{n \times d}$ ，然后对每行选取绝对值最大的元素，计算均值并组合成残差向量 $\psi$ 。
使用符号损失函数 $L_R(\psi, b_e) = \max(\alpha - \text{sgn}(b_e^T) \psi, 0)$ 作为水印正则化项，其中符号函数 $\text{sgn}$ 获取输入值的符号，确保 $\psi$ 中元素的符号与 $b_e$ 的符号相同。
其中， $b_e$ 是由原始 IP 消息 $b$ 经 RSA 加密得到的 $n$ 位消息。此方法通过构造的残差向量嵌入水印，并且无需使用触发样本或密钥矩阵，提高了对攻击的抗性。

d.通过权重嵌入的水印来进行模型完整性验证

主要分为三种方法：可逆水印、基于LSB的脆弱水印和设备功能验证的脆弱水印。这些水印方法用来防止模型篡改攻击，并能够检测模型是否被修改。

-可逆水印（Reversible Watermarks）:可逆水印的特点是可以在不破坏原始模型的情况下将水印嵌入，并能在需要时恢复原始模型。这种方法适用于检测模型分发过程中的篡改情况，主要步骤包括：

选择不重要的网络通道（权重最小的通道）作为嵌入序列，使用类似通道剪枝的技术。
将浮点数权重转换为整数序列，形成一个低熵的整数序列。
将整数序列视为灰度图像，采用图像的可逆数据隐藏方法（如直方图移动）嵌入水印。
恢复模型后，使用哈希比较来验证模型是否被篡改。

-基于LSB的脆弱水印（LSB-based Fragile Watermarks）

该方法通过修改模型权重的最不重要字节（LSB）来嵌入水印，用于在模型执行过程中检测和定位篡改。其步骤包括：

将模型参数划分成多个参数单元（PU），每个PU包含16个4字节浮点数。

构建一个32字节的水印嵌入单元（WEU），其中前16字节是MSB的哈希值，后16字节为对应的LSB。

使用KLT（Karhunen-Loève变换）对水印进行分段嵌入，优化LSB变化，KLT基本向量作为密钥。

如果在验证过程中检测到任何段与原始水印不匹配，则表示模型可能已被篡改。

-用于设备功能验证的脆弱水印

该方法适用于不允许在权重上进行任何改动但需要验证设备上模型功能完整性的场景。这些验证在设备端的可信执行环境（TEE）中进行，主要包括：

将设备特定的水印嵌入原始模型中。

在运行时进行功能验证，若验证失败，模型将被阻止运行。

防御主要包括：模型替换、伪造设备水印、故障注入等攻击方式。

动态隐藏层激活或梯度

(2)动态隐藏层激活或梯度中的水印 Dynamic Hidden-layer Activation or Gradients:

a.动态隐藏层激活水印

传统基于权重的水印方法容易受到重写攻击（即插入新水印掩盖原始水印）。为此，DeepSigns方法提出将水印嵌入目标类别样本的隐藏层激活期望值中，旨在通过最小化类别内部激活差异、最大化类别间激活差异来增加水印的隐蔽性.

b.动态梯度水印

动态梯度水印通过嵌入外部特征来实现水印，不改变触发样本的标签，从而避免安全风险。例如，MOVE方法采用风格迁移将外部特征嵌入样本生成的梯度中。具体过程包括：
- 生成风格迁移样本集；
- 将模型分别在原始和风格迁移数据集上进行训练，得到水印模型和干净模型；
- 获取模型在风格样本上的梯度，并用元分类器区分水印模型和干净模型。
对于黑盒场景，MOVE使用风格迁移样本与原样本的软预测差异代替梯度，最终通过假设检验完成模型验证。

c.数据空间的水印保护

在数据集保护方面，可以将水印嵌入特征空间再扩展至数据空间，以保护模型和数据集的所有权。例如，Radioactive Data方法通过在样本的特征空间中嵌入各类别的单位向量，从而保护数据集的版权。

(3)模型结构Model structures:

-利用水印稀疏模型结构进行深度IP保护

-“中奖票假设”保护，中奖票（特定稀疏掩码和初始权重的子网络）可以以接近完整模型的精度运行。Chen等将中奖票视作有价值资产，提出将关键掩码和锁掩码组合嵌入模型，只有持有正确掩码的合法用户才能使用该模型。

(4)通过将额外的过程或组件添加到原始模型中，可以嵌入水印。

归一化层水印：为克服IP模糊性攻击，Passport方法在选定的隐藏层后增加“通行层”，模型只有在拥有正确通行证的情况下才能输出正确结果。Zhang等进一步提出了“通行证感知归一化”，解决了多任务学习中的精度下降问题。

RNN隐藏状态水印：Lim等扩展了水印到RNN，通过在每个时间步后对隐藏状态进行秘密密钥变换实现对黑盒和白盒场景的访问控制和验证。

子网络水印：为提高水印抗攻击性，lv等提出嵌入水印子网络，使模型对微调更敏感以防IP移除。通过交替训练原模型和水印子网络，实现水印的隐蔽性和抗伪造。