文章目录
一、文章概览
(一)摘要
提出问题: 生成图像建模可实现广泛的应用,但引起了有关负责任部署的道德担忧。
由于无法识别图像是由人工智能生成的,因此很难将它们从某些平台上删除并确保它们符合道德标准。它为深度造假、冒充或盗用版权等新风险打开了大门。
主要工作: 一种结合图像水印和潜在扩散模型的主动策略,使得所有生成的图像隐藏不可见的水印,从而使得将来能够对其进行检测或者识别。
具体方法:
- 以二进制签名为条件,快速微调图像生成器的潜在解码器。
- 预先训练的水印提取器从任何生成的图像中恢复隐藏的签名,
- 然后进行统计测试以确定它是否来自生成模型。
研究结论: 评估了水印在各种生成任务上的不可见性和鲁棒性,表明即使在图像被修改后,稳定签名仍然有效。例如,它检测根据文本提示生成的图像的来源,然后进行裁剪以保留 10% 的内容,准确率达到 90+%,误报率低于 10−6。
(二)引言
现有的生成图像识别的方案:
- 取证,将秘密消息(水印)无形地嵌入到图像中,然后可以提取该秘密消息并用于识别图像;
- 缺点在于如果模型泄露或者开源,生成后的水印很容易去除。
对于开源的 Stable Diffusion来说,删除水印相当于注释掉源代码中的一行。
作者的方案:
- 专注于潜在扩散模型(LDM),因为它们可以执行广泛的生成任务。
- 只需微调生成模型的一小部分(从潜在向量生成图像的解码器)就足以将水印原生嵌入到所有生成的图像中。
- 稳定签名方法(stable signature),将水印合并到生成过程本身中,无需任何架构更改。
微调阶段是通过将感知图像损失和隐藏消息损失的组合从水印提取器反向传播回 LDM 解码器来执行的。
使用深度水印方法 HiDDeN的简化版本对提取器进行预训练。
最终实现效果:
- 以与大多数基于 LDM 的生成方法兼容的方式有效地将水印合并到 LDM 的生成过程中
- 创建了一个接近可能编辑图像的现实世界情况的评估基准,通过该评估基准演示了如何使用它来检测和跟踪生成的图像
- 与事后水印方法进行比较,表明它具有竞争力,同时更安全和高效。
- 评估对故意攻击的鲁棒性。
(三)相关工作
- 图像生成工作
- 人工智能生成/操纵的图像的检测工作
- 图像水印工作
二、模型原理
模型大致的工作流程:
- 在分发模型之前,创建者(我们称她为 Alice)会对模型的特定部分(即解码器)进行微调。这一微调过程包含了为特定接收者或目的量身定制的独特水印。这种水印可以包含各种类型的信息,如模型版本、拥有模型的公司、用户标识符等。
- 微调后,模型将提供给另一个用户(我们称他为鲍勃)。当鲍勃使用该模型生成图像时,这些图像将带有鲍勃独有的水印,人眼是看不到的。水印会无缝集成到生成的图像中。
通过统计测试,可以在两种场景中使用此签名:
- 检测:“它是由我的模型生成的吗?”。 Alice 检测图像是否是由她的模型生成的。应标记尽可能多的代,同时控制标记自然图像的概率。
- 识别:“谁生成了该图像?”。 Alice 监视每个图像的创建者,同时避免错误地识别出未生成该图像的 Bob。
(一)图像水印检测——“它是由我的模型生成的吗?”
Alice 将 k 位二进制签名嵌入到生成的图像中。然后,水印提取器对收到的图像中的消息进行解码,并检测消息何时接近 Alice 的签名。
统计检验过程:
基本思想:
- 令 m ∈ { 0 , 1 } k m ∈ \{0, 1\}^k m∈{0,1}k 为 Alice 的签名。我们从图像 x 中提取消息 m′ 并将其与 m 进行比较。
- 检测测试依赖于匹配位数 M (m, m′):如果 M (m, m′) ≥ τ ,然后图像被标记。这提供了对水印缺陷的一定程度的鲁棒性。
H1:“x 是由 Alice 的模型生成的”;H0:“x 不是由 Alice 的模型生成的”。
- 在 H0 下(即对于普通图像),我们假设位 m′1,… 。 。 , m′ k 是参数为 0.5 的 (i.i.d.) 伯努利随机变量。那么 M (m, m’) 服从参数为 (k, 0.5) 的二项分布。
误报率 (FPR) 是 M (m, m′) 取大于阈值 τ 的值的概率。它是从二项式分布的 CDF 获得的,并且可以用正则化不完全 beta 函数 Ix(a; b) 写成闭合形式: F P R ( τ ) = P ( M > τ ∣ H 0 ) = I 1 / 2 ( τ + 1 , k − τ ) FPR(τ ) = P (M > τ |H_0) = I_{1/2}( τ + 1, k − τ ) FPR(τ)=P(M>τ∣H0)=I1/2(τ+1,k−τ)。
(二)图像水印用于识别——“谁生成了该图像?”
Alice 现在将从 { 0 , 1 } k \{0, 1\}^k {0,1}k中随机抽取的签名 m ( i ) m^{(i)} m(i) 嵌入到分发给 B o b ( i ) Bob^{(i) } Bob(i)的模型中(对于 i = 1 · · · N ,其中 N 是 Bob 的数量)。 Alice 可以追踪对她的模型的任何滥用:通过将提取的消息与 Bob 的签名进行比较,生成的违反她的政策的图像(血腥内容、深度伪造)会链接回特定的 Bob。
统计检验过程:
将来自水印提取器的消息 m′ 与 ( m ( 1 ) , . . . m ( N ) ) (m^{(1)},...m^{(N)}) (m(1),...m(N))进行比较 。现在有 N 个检测假设需要测试。
- 如果 N 个假设被拒绝,我们就得出结论,该图像不是由任何模型生成的。
- 否则,我们将图像归因于
a
r
g
m
a
x
i
=
1..
N
M
(
m
′
,
m
(
i
)
)
argmax_{i=1..N} M( m′, m^{(i)})
argmaxi=1..NM(m′,m(i)) 。
对于检测任务,由于有N次测试,误报的可能性更大。
给定阈值 τ 下的全局 FPR 为: F P R ( τ , N ) = 1 − ( 1 − F P R ( τ ) ) N ≈ N . F P R ( τ ) FPR(τ, N ) = 1 − (1 − FPR(τ ))N ≈ N.FPR(τ ) FPR(τ,N)=1−(1−FPR(τ))N≈N.FPR(τ)。 反向使用方程:我们找到阈值 τ 来实现识别(分别为检测)所需的 FPR。请注意,这些公式仅在独立同分布的假设下成立。从普通图像中提取的伯努利位。
三、模型方法
stable signature的核心思想:修改生成网络,使得生成的图像通过固定水印提取器具有给定的签名。
训练主要分为两个阶段:
- 创建水印提取器网络W
- 微调潜在扩散模型(LDM)解码器 D,使得所有生成的图像都通过W具有给定的签名
(一)预训练水印提取器
使用深度水印文献中的经典方法:HiDDeN。它联合优化水印编码器 W E W_E WE 和提取器网络 W W W 的参数,将 k 位消息嵌入到图像中,从而对训练期间应用的转换具有鲁棒性。
主要是训练两个卷积神经网络:
- W E W_E WE:将图像和随机消息编码为水印图像;
- W W W:从水印图像的增强版本中提取消息,目的是使编码和提取的消息匹配;
- T T T:包含常见图像处理操作(例如裁剪和 JPEG 压缩)的集合。
训练完成后,只保留水印提取器 W W W。
损失函数采用m 和 sigmoid σ(m′) 之间的二元交叉熵 (BCE):
L
m
=
−
∑
i
=
1
k
m
i
×
l
o
g
σ
(
m
i
′
)
+
(
1
−
m
i
)
×
l
o
g
(
1
−
σ
(
m
i
′
)
)
L_m=-\sum_{i=1}^km_i \times log \sigma(m_i')+(1-m_i) \times log(1-\sigma(m_i'))
Lm=−i=1∑kmi×logσ(mi′)+(1−mi)×log(1−σ(mi′))
(二)微调生成模型
在 LDM 中,扩散发生在自动编码器的潜在空间中。将扩散结束时获得的潜在向量 z 输入到解码器 D 以产生图像。通过对解码器D进行微调,图像可以包含由W提取到的给定信息m。稳定签名与许多生成任务兼容,因为仅修改 D 不会影响扩散过程。
微调过程:
- 固定水印 m = ( m 1 , . . . , m k ) ∈ { 0 , 1 } k m = (m1, ..., mk) ∈ \{0, 1\}^k m=(m1,...,mk)∈{0,1}k
- 将训练图像 x ∈ R H × W × 3 x ∈ R^{H×W ×3} x∈RH×W×3输入 LDM 编码器 E,该编码器输出激活图 z = E ( x ) ∈ R h × w × c z = E(x) ∈ R^{h×w×c} z=E(x)∈Rh×w×c,通过 f = H / h = W / w f = H/h = W/w f=H/h=W/w对 w w w进行下采样
- 解码器重建图像
x
′
=
D
m
(
z
)
x' = D_m(z)
x′=Dm(z),提取器恢复
m
′
=
W
(
x
′
)
m' = W(x')
m′=W(x′)。
损失函数:
L
=
L
m
+
λ
i
L
i
L=L_m+\lambda_iL_i
L=Lm+λiLi
- L m L_m Lm是水印损失,也就是m′ 与原始 m 之间的 BCE
- L i L_i Li是图像感知损失
四、文本到图像水印性能的检验
(一)检测结果
为了进行检测,我们使用随机密钥 m 微调 LDM 的解码器,生成 1000 张图像并使用统计检验进行测试。
报告了真实率(TPR)(即标记生成图像的概率)和 FPR 之间的权衡,同时改变 τ ∈ {0, …, 48}。例如,对于 τ = 0,我们标记所有图像,因此 FPR = 1,TPR = 1。TPR 是直接测量的。相比之下,FPR 是从等式推断出来的。该实验针对 10 个随机签名进行,我们报告平均结果。
图中结果显示了图像变换下的权衡:
- 当生成的图像未修改时,Stable Signature 会检测到 99% 的图像,即 1 0 9 10^9 109个图像中只有 1 个普通图像被标记。在相同的 FPR = 1 0 − 9 10^−9 10−9 下,对于保留 10% 图像的裁剪,稳定签名检测到 84% 的生成图像,对于结合裁剪、颜色偏移和 JPEG 压缩的转换,检测到 65%。
(二)识别结果
每个 Bob 都有自己的生成模型副本。给定一张图像,目标是找出 N 个 Bob 中是否有任何一个创建了它(检测),如果是,是哪一个(识别)。有 3 种类型的错误:
- 误报:标记普通图像;
- 漏报:漏掉生成的图像;
- 虚假指控:标记生成的图像,但识别出错误的用户。
为了进行评估,我们使用随机签名微调 N ′ = 1000 个模型。每个模型生成 100 张图像。对于这 100k 个带水印的图像中的每一个,我们提取稳定签名消息,计算所有 N 个签名的匹配分数,并选择分数最高的用户。如果该分数高于阈值 τ ,则预测该图像将由该用户生成。我们确定 τ 使得 FPR = 10−6。例如,对于 N = 1,τ = 41,对于 N = 1000,τ = 44。通过添加额外签名并让 N > N ′(例如,未生成任何图像的用户),可以将准确度推断到 N ′ 用户之外。
图中结果显示了每次转换的识别准确性:
- 在图像未修改的情况下,我们以 98% 的准确率识别 N = 1 0 5 10^5 105 中的用户。
- 对于组合编辑的图像,准确率将变为 40%。这可能仍然具有劝阻作用:如果用户生成 3 张图像,80% 的情况下他都会被识别出来。我们观察到,在这个规模下,误报率为零,即我们永远不会识别出错误的用户。这是因为 τ 设置得较高是为了避免 FPR,这也使得错误指控的可能性较小。
- 当 N 增加时,识别精度会下降,因为当 N 增加时,避免误报所需的阈值 τ 更高。简而言之,通过分发更多模型,Alice 用一定的检测准确性来换取识别用户的能力。
五、模型效能及对比结果
(一)任务和评估指标
由于我们的方法仅涉及 LDM 解码器,因此它可以兼容许多生成任务:
- MS-COCO的验证集用于评估文本到图像的生成和图像编辑;
- ImageNet的验证集上评估超分辨率和修复;
- 用峰值信噪比(PSNR)结构相似度得分(SSIM)来评估图像失真(比较生成的带水印和不带水印的图像);
- 使用FID评估生成图像的多样性和质量;
- 位精度——正确解码的位的百分比评估水印的鲁棒性。
(二)图像生成质量
1、定性评估
LDM 解码器确实学会了仅在人眼不敏感的纹理区域添加水印信号,而均匀的背景保持不变(参见像素差异)。
2、定量评估
经过检测,无论什么任务,水印对生成的 FID 的影响都很小。原始图像和水印模型生成的图像之间的平均 PSNR 约为 30 dB,SSIM 约为 0.9。从水印的角度来看,它们有点低,因为我们没有明确针对它们进行优化。事实上,在现实世界中,人们只会拥有图像的带水印版本。因此,我们不需要尽可能接近原始图像,而只想生成无伪影的图像。如果无法访问原始 LDM 生成的图像,则很难判断是否存在水印。
(三)水印鲁棒性
对于每个任务,作者用不同的水印信息微调了10个模型生成了1k个图像,获取了平均值如下表:
从 COCO 提示生成的图像的更多图像转换结果:
(四)与事后水印的比较
- 定量分析:将我们的方法与基于频率的方法、DCT-DWT 、迭代方法(SSL Watermark和 FNNS)以及像 HiDDeN 这样的编码器/解码器进行比较。总体而言,稳定签名在稳健性方面取得了可比的结果。 HiDDeN 的性能稍高一些,但其输出位不是独立的。这意味着它不能与其他方法具有相同的保证。
- 定性分析:事后生成给出了更差的定性结果,图像往往会出现伪影。一种解释是,Stable Signature 与 LDM 自动编码器模型合并到高质量生成过程中,能够以更微妙的方式修改图像。
六、水印对故意篡改的抵抗力
检查水印对故意篡改的抵抗力,而不是在没有恶意的情况下发生的扭曲,例如裁剪或压缩。考虑两种威胁模型:一种是许多图像水印方法的典型,在图像级别运行,另一种针对生成模型级别。
(一)图像级攻击
Bob 使用深度学习技术更改图像以去除水印,例如用于对抗性净化或神经自动编码器 的方法。
为了将位精度降低到接近随机(50%),图像失真需要很强(PSNR<26)。然而,假设攻击是在生成模型上进行的,即自动编码器与用于生成图像的编码器相同,那么攻击就会变得更加有效。它在消除水印的同时实现了高质量(PSNR>29)。
(二)网络级攻击
使用微调过程消除生成模型的水印嵌入。这涉及消除消息损失 Lm,并将焦点转移到原始图像和 LDM 自动编码器重建的图像之间的感知损失 Li。根据经验,在不影响图像质量的情况下显着降低位精度是很困难的:在纯化过程中开始出现伪影。