ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

最新推荐文章于 2024-11-25 17:30:00 发布

谢桥光

最新推荐文章于 2024-11-25 17:30:00 发布

阅读量1.3k

点赞数 2

文章标签：深度学习人工智能风格迁移

本文链接：https://blog.csdn.net/weixin_44019018/article/details/127766339

版权

本文揭示了当前通用风格迁移算法存在的内容泄露问题，分析了原因并提出了新的ArtFlow框架。ArtFlow通过无偏的、可逆的神经流网络实现内容和风格的无损分离，解决了内容泄露，同时保持了风格迁移的高质量效果。实验表明，ArtFlow在保留内容细节和避免内容泄露方面优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

1、基本信息

作者：Jie An， Siyu Huang等
会议：CVPR 2021
单位：罗切斯特大学、百度研究院、腾讯AI实验室、腾讯数据平台

2、主要框架

任务：Universal style transfer
问题：Content leak phenomenon
方法：ArtFlow
1. 架构
  1. Reversible neural flows
  2. An unbiased feature transfer module
2. 流程：Projection-Transfer-Reversion
贡献
- 揭示SOTA风格迁移算法的Content Leak现象，并分析证实其3大主要原因。
- 提出无偏的、无损失的、可逆的网络PFN，并可以用其分析UST算法中Transfer模块自身会不会有偏，从而导致Content Leak。
- 提出新的风格迁移框架ArtFlow（PFN+Transfer），不会内容泄露的同时，结果可与SOTA比肩。

3、Content Leak

3.1. What is Content Leak?

现象（Phenomena）：Universal style transfer（AdaIN、WCT、Avatar-Net等）风格化时分解、重建图像内容的能力有限，在多风格迁移后不能保留图像内容。称此现象为内容泄露（Content Leak）。
证据（Evidence）：做多轮实验，将前一轮的输出作为下一轮的内容图输入，实验结果如下图1。

3.2. Why Does Content Leak Happen?

分析（Analysis）：UST方法（Encoder-Transfer-Decoder ）
1. 编码器【image embedding】
  - 固定不变的
2. 可学习的解码器【remap deep features back to images】
  - 图像重建有误（如WCT）
  - 解码器训练有偏（如AdaIN）
3. 风格迁移的模块【based on deep feature】
  - 迁移模块训练有偏（如Avatar-Net）
原因（Causes）
- Reconstruction error：UST的解码器对内容图的重建有损失。
  - WCT论文中作者表示，由于编码器中的pooling operations导致的空间信息损失，就算用了image reconstruction loss 和 content loss，解码器也是不完美的。
- Biased decoder training：以AdaIN为例，其使用content loss和style loss作为损失函数。因为style loss的存在，解码器需要权衡内容损失和风格损失，自然不能完美地重建图像。
  - 从图3的实验结果可以看出，只用content loss作为损失函数的收敛值比结合版的更小。因此，AdaIN自编码器会偏向于更多的艺术效果，自此出现了内容泄露。【稍有疑惑？】

Biased style transfer module：以Avatar-Net中的Style Decorator为例
- 其灵感来源于deep image analogy，分以下两步：
  1. 根据内容相似度，每个内容特征块f_c 会找到一个对应的风格特征块 f_s。
  2. f_sc 把内容特征块替换为相应的风格特征块。【这不完全变成风格图了吗？】
- 以上替换是不可逆的，不能从f_sc复原到f_c ，因此结果更偏向于风格，导致内容泄露现象。
总结如图5。

4、ArtFlow

框架对比（Comparison）：UST【Encoder-Transfer-Decoder】、ArtFlow【PFN（Projection Flow Network）+ Transfer】

4.1. Overview of the ArtFlow Framework

Projection(PFN)-Transfer-Reversion(PFN^-1)

4.2. Projection Flow Network(PFN)

作用：feature extractor、image synthesizer
模型：Glow
1. Additive coupling
  1. 足以处理风格迁移任务；
  2. 比Affine coupling更有效且稳定。
2. Invertible 1×1 convolution
  1. 因Additive coupling只变换固定的一半通道的特征值，以此重排序通道。
3. Actnorm：activation normalization layer，作用相当于BN。
  1. 每个通道归一化。【可以将这个换成AdaIN或者其他？】
4. Squeeze：减少特征图的空间大小（宽高）
  1. 沿着空间维度切割成小块
  2. 沿着通道维度拼接小块

4.3. Unbiased Content-Style Separation

Which style transfer module should ArtFlow use to achieve the unbiased style transfer?

AdaIN、WCT

4.3.1 理论分析

UST方法机制可以认为是bilinear model（Tenenbaum and Freeman，2000）的进化版。
1. 假定：能将图像分为内容因子C、风格因子S
2. 风格迁移：将内容图像的风格S_c替换为目标图像的风格S_s。
UST方法同样是假定了内容信息和风格信息在深度特征空间中是可以或明显或隐晦地分解开的。
- AdaIN：内容因子C是特征的归一化值、风格因子S是特征的均值/标准差向量

Definition 1 Suppose we have a bilinear style transfer module f_cs = C(f_c)S(f_s), where C, S denote the content factor and the style factor in the bilinear model, respectively. f_cs is an unbiased style transfer module if C(f_cs) = C(f_c) and S(f_cs) = S(f_s).

Theorem 1 The adaptive instance normalization in AdaIN is an unbiased style transfer module.

Theorem 2 The whitening and coloring transform in WCT is an unbiased style transfer module.

4.3.2 实验证明

控制变量法：使用PFN替换UST的编码解码器，排除解码器带来的原因1、图像重建错误；2、有偏的图像复原。

发现（findings）
1. 从(a) vs. (b)和 © vs. (d) 看出，PFN确实可以无损失、无偏差地重建内容和风格信息。
2. 从(b) vs. (d)看出，AdaIN和WCT的迁移模块是无偏的。

5、实验

Comparison（in terms of stylization effect, computing time, content leak, content factor visualization）
新的有趣的应用：reverse style transfer

5.1. Experimental Settings

Dataset

内容图：MS-COCO

风格图：WikiArt

5.2. Style Transfer Results

Visual comparison

WCT、OptimalWCT：艺术效果；
LinearWCT、AdaIN、ArtFlow：保留更多内容细节；ArtFlow的细节内容更多，且没有内容泄露。
Avatar-Net：保留更精致的纹理信息。

Portrait style transfer 的训练数据集
- 内容图：FFHQ
- 风格图：Metfaces

Quantitative comparison

评估标准：Structural Similarity Index（SSIM）、content loss(与源内容图)、mean square error of Gram matrics(与源风格图)
1. SSIM：ArtFlow得分最高：保留内容信息能力最强
2. Content loss：StyleSwap最高，但视觉效果没有ArtFlow好。
3. Gram loss：ArtFlow的得分不理想，因为其主要解决内容泄露问题，纠正偏向风格图的倾向。
  1. ArtFlow+AdaIN的值比AdaIN要低、ArtFlow+WCT的值和WCT差不多。
  2. 证明ArtFlow在解决内容泄露的同时不损害原本的风格化能力。
4. Computing time
  1. ArtFlow+AdaIN比AdaIN慢，因为没采用池化操作，需要计算更多层。
  2. ArtFlow+WCT比WCT快，因为不需要multi-level 风格化策略。