Universal Style Transfer via Feature Transforms (WCT，风格迁移，NIPS2017)

最新推荐文章于 2024-09-04 07:06:30 发布

PoemK

最新推荐文章于 2024-09-04 07:06:30 发布

阅读量3.4k

点赞数 2

分类专栏：图像转换文章标签：风格迁移

本文链接：https://blog.csdn.net/yskyskyer123/article/details/99840784

版权

图像转换专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了风格迁移技术，特别是Li等人的通用风格转移方法，该方法通过特征变换实现高效且高质量的风格转换。文章详细解释了Whitening and Coloring变换如何匹配内容图像和风格图像的统计特性，实现了从高层到低层的多级风格化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Li Y, Fang C, Yang J, et al. Universal Style Transfer via Feature Transforms. NIPS 2017

风格迁移的关键问题是如何提取有效果的风格特征并且让输入的内容图像去匹配这种风格。前人的工作证明了协方差矩阵和Gram矩阵能较好地反映视觉风格。

基于优化的风格迁移方法，可以处理任意风格并且达到满意的效果但是计算代价太大(时间太长)；基于前馈网络的方法可以高效运行，但是局限于固定种类的风格或者不太好的视觉效果。

同时实现generalization ， quality ，efficiency的任意风格转换时一个挑战性的任务。

generalization：说的应该是处理多种甚至任意风格图像的能力。

这篇工作提出的方法是用whitening and coloring变换来实现风格迁移, 思想是将风格迁移任务看做是一个图像重构并进行特征变换的任务。WCT操作：输入内容图像特征和风格特征，输出调整后的内容特征使得输入内容特征的协方差矩阵和输入风格特征的协方差矩阵相匹配。

事先需要预训练一个VGG作为encoder和一个与之对称的decoder。它们的参数在后续实验中保持固定。

在这里插入图片描述

输入的内容图像C和风格图像S经过VGG提取出high-level高层特征（Relu5_1)，进行Whitening and Coloring Transform （WCT），然后通过decoder恢复到原图大小。

再将变换后的图像C和风格图像S经过VGG提取出较低一层的特征（Relu4_1)，进行WCT，然后通过decoder恢复到原图大小。
…
再将变换后的图像C和风格图像S经过VGG提取出低层的特征（Relu1_1)，进行WCT，然后通过decoder恢复到原图大小。

The result obtained by matching higher level statistics of the style is treated as the new content to continue to match lower-level information of the style.

也就是说经过匹配了风格图像高层统计量的图像作为新的内容图像继续去匹配风格图像的低层信息。这样各层统计量都得到了匹配。（Multi-level coarse-to-fine stylization）

重构误差：
在这里插入图片描述

特征进行whitening，之后decode 操作效果：
在这里插入图片描述
保持了图像的全局内容，移除了与风格有关的信息。细节处的笔画图案被移除了

在这里插入图片描述

It clearly shows that the higher layer features capture more complicated local structures, while lower layer features carry more low-level information (e.g., colors).

高层特征反映了复杂的局部结构，低层特征具有更多的低层(细节)信息。工作的优化顺序是先匹配高层统计量，再匹配低层统计量。

which indicates that the higher layer features first capture salient patterns of the style and lower layer features further improve details
高层特征捕捉到了风格的显著模式，低层特征进一步优化细节。实验证明：如果先匹配低层统计量，再匹配高层统计量，低层细节信息在高层特征经过操作之后不能被保留。

控制风格化程度：
在这里插入图片描述
$\alpha$ 被称之为style weight.
where $\alpha$ serves as the style weight for users to control the transfer effect.

拓展到纹理生成 Texture synthesis：

将输入内容图像替换成随机噪声图像

生成新纹理的插值方式：

在这里插入图片描述

之后将 $\hat{f_{cs}}$ 送入decoder

在这里插入图片描述
In contrast, our approach explains each input noise better because the network is unlikely to absorb the variations in input noise since it is never trained for learning textures.
对于纹理生成一个重要的评价指标是diversity, [27]通过输入噪声生成不同的结果图像。但是实验结果证明噪声被吸收/发挥出了微不足道的效果，因此难以驱动网络去生成较大的视觉变化/差异。相比较而言，由于proposed mehod对于纹理生成不需要经过训练过程，所以proposed method吸收噪声的能力并不那么强。

WCT操作：

目标：在这里插入图片描述

其中 $\hat{f_{cs}}$ 是指匹配之后的特征， $f_s$ 是指风格特征。

1） Whitening操作:

先对 $f_c$ 中心化 (We first center $f_s$ by subtracting its mean vector $m_s$ )

之后：
在这里插入图片描述
其中 $E_c$ 为 $f_cf_c^T$ 进行特征分解后的特征向量构成的方阵， $D_c$ 为特征值构成的对角阵。

这样变换后的 $\hat{f_c}$ 正交：

$\hat{f_c} \hat{f_c}^T= I$

证明：

因为，对于所有特征向量 $x$ 有
$f_c f_c^T x=\lambda x$ 。

所以 $f_c f_c^T E_c=E_c D_c$ 。

因为 $E_c$ 为正交方阵，故 $E_c E_c^T=I$ ，并且 $E_c^T E_c=I$ 。

所以 $f_c f_c^T = E_c D_c E_c^T$ 。
所以 $E_c^T f_c f_c^T E_c = D_c$ 。

所以
$\begin{aligned} \hat{f_c}\hat{f_c}^T&=E_c D_c^{-\frac{1}{2}} E_c^T f_c f_c^T E_c D_c^{-\frac{1}{2}T}E_c^T \\ &=E_c D_c^{-\frac{1}{2}} D_c D_c^{-\frac{1}{2}T}E_c^T \\ &=E_c D_c^{-\frac{1}{2}} D_c D_c^{-\frac{1}{2}}E_c^T \\ &=E_c E_c^T \\ &= I \end{aligned}$

2） Coloring操作:

先对 $f_s$ 中心化,再进行变换：在这里插入图片描述
其中 $E_s$ 为 $f_sf_s^T$ 进行特征分解后的特征向量构成的方阵， $D_s$ 为特征值构成的对角阵。

最后再对 $\hat{f_{cs}}$ 去中心化
在这里插入图片描述

这样先进行Whitening再进行Coloring之后，能够使变换后的特征和风格图特征的协方差矩阵匹配：在这里插入图片描述
证明：
$\begin{aligned} \hat{f_{cs}}\hat{f_{cs}}^T &= E_s D_s^{\frac{1}{2}} E_s^T \hat{f_c} \hat{f_c}^T E_s D_s^{\frac{1}{2}T} E_s^T \\ &=E_s D_s^{\frac{1}{2}} E_s^T E_s D_s^{\frac{1}{2}} E_s^T \\ &=E_s D_s^{\frac{1}{2}} D_s^{\frac{1}{2}T} E_s \\ &=E_s D_s^{\frac{1}{2}} D_s^{\frac{1}{2}} E_s \\ &=E_s D_s E_s \\ &= f_s f_s^T \end{aligned}$