风格迁移综述

最新推荐文章于 2024-04-27 22:02:17 发布

Hygge�

最新推荐文章于 2024-04-27 22:02:17 发布

阅读量1.3w

点赞数 21

文章标签：神经网络计算机视觉算法人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44550193/article/details/109694698

版权

图像风格迁移利用深度学习技术将内容图像的语义信息与风格图像的艺术风格结合，生成新颖的视觉效果。该文回顾了基于图像迭代和模型迭代的迁移方法，包括最大均值差异、马尔科夫随机场和深度图像类比等。快速风格迁移和基于解码器的迁移算法提高了效率，但依然面临参数调整和风格泛化的挑战。应用涵盖艺术创作、地图生成等领域，未来研究将关注效率、可控性和特定领域的风格迁移优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

推荐论文：Y. Jing, Y. Yang, Z. Feng, J. Ye, Y. Yu and M. Song, “Neural Style Transfer: A Review,” in IEEE Transactions on Visualization and Computer Graphics, vol. 26, no. 11, pp. 3365-3385, 1 Nov. 2020, doi: 10.1109/TVCG.2019.2921336.

0 引言

图像风格迁移是一种用不同风格渲染图像语义内容的图像处理方法。传统非参数的风格迁移方法只能通过提取图像的低层次特征（色彩、纹理等）来进行纹理合成，无法提取图像高层的特征。近年来，随着深度神经网络在其它视觉感知领域（例如物体与人脸识别）的广泛应用，其在风格迁移领域也具有良好的表现。神经网络具有良好的特征提取能力，能够提取到丰富的语义信息，而这些信息正是风格迁移的基础。

图像风格迁移可以被理解为图像渲染的过程，在非真实感图形学领域，图像艺术风格渲染技术可以分为三类：基于笔触渲染的方法、基于图像类比的方法和基于图像滤波的方法。
在这里插入图片描述
传统非参数的图像风格迁移方法主要基于物理模型的绘制与纹理的合成，只能够提取图像的底层特征，而非高层抽象特征。在处理颜色和纹理较复杂的图像时，合成效果较为粗糙。Efros[1]等人通过提取并重组纹理样本的方式来合成目标图像；Hertzman[2]等人通过图像类比将已有图像风格转化到目标图像上；Ashikhmin[3]将源图像的高频纹理转化到目标图像的同时，保留了目标图像的粗尺度；Lee[4]等人通过额外传递边缘信息提升了这一算法。

尽管传统非参数方法取得了一定的效果，但它们都存在局限性：它们只提取了目标图像的低级特征。理想情况下，风格迁移算法应该可以提取到目标图像的语义特征并做出符合语义内容的风格迁移。将自然图像的内容与风格分离是一个巨大的难题。然而近年来发展迅速的深度卷积神经网络提供了一个强大的计算机视觉系统，能够从自然图像中有效提取高层的语义信息。

深度学习的图像风格迁移方法主要包括基于图像迭代和基于模型迭代两种[5]。图像迭代是直接在白噪声图像上进行优化迭代实现风格迁移，其优化目标是图像；模型迭代的优化目标则是神经网络模型，以网络前馈的方式实现风格迁移。
图像风格迁移与图像分类过程对比

1 基于图像迭代的风格迁移方法

基于图像迭代的风格迁移算法主要有基于最大均值差异、基于马尔科夫随机场、基于深度图像类比三类。具有合成图像质量高、可控性好、易于调参、无需训练网络、计算时间长、对预训练模型依赖性大等特点。

1.1 基于最大均值差异的风格迁移

Gatys于2015年第一次将VGG19网络应用到风格迁移中[7]。Gatys的关键发现在于：卷积神经网络的内容和风格是分离的，而通过构造Gram矩阵可以提取出任意图像的风格特征表示。随后Li等人证明Gram矩阵的匹配方式等价于最小化特定的最大均值差异。
Gatys方法效果图
Gatys风格迁移网络示意图由于迁移风格中的色彩会破坏原有的图片内容信息，Gatys等人在随后的研究中提出了两种保存原图像色彩信息的风格迁移方法[8]：色彩直方图匹配（RGB空间）和仅亮度迁移（LAB空间）。
彩色直方图匹配：在这里插入图片描述
亮度迁移：
Gatys保留原色彩的风格迁移效果图由于Gram矩阵可以生成多个与之匹配的纹理，导致纹理生成不稳定，Risser等人在Gatys的基础上，通过引入基于直方图的损失函数[9]（保留纹理的均值和方差）来稳定纹理的生成：
在这里插入图片描述

1.2 基于马尔科夫随机场的风格迁移

dCNN的池化层压缩图像信息时，损失了大量的信息。Gatys等人使用了VGG网络中的滤波金字塔作为图像的高层表征。但是不同卷积层只能捕获图像每个像素之间的联系，而缺少空间分布上的联系。基于以上问题，Li等人提出了结合马尔科夫随机场和卷积神经网络的模型[10]，将Gatys模型中的Gram矩阵匹配替换为马尔科夫正则化模型。马尔可夫模型描述了具有同类特征信息的集合，因此将CNN图像特征映射分割成许多区域块并进行匹配，可以提高合成图像在视觉上的合理性。

该方法为基于图像迭代的风格迁移提供了一个有趣的拓展，但同时也存在很多局限性：（1）对于输入图像有很强的限制：风格图像必须能够被马尔可夫重构。例如，具有较强透射结构的图片不适用于本方法。（2）结果图相较于原图会产生边缘模糊的缺点。这是因为网络训练过程中图像的损失。

综上，基于马尔科夫随机场的风格迁移方法只有在内容图像与风格图像具有相似的形状，同时没有强烈的角度、尺寸变化时才会产生良好的效果。
在这里插入图片描述

1.3 基于深度图像类比的风格迁移

Liao等人通过结合深度学习（VGG19）与图像类比（PatchMatch）进行风格迁移[11]，取得了良好的效果。
PatchMatch是图像类比的经典算法：给定一组图片A和B’，A提供语义和内容两大主要信息，B’提供外观性（例如颜色、光照、风格等）和细节（例如纹理）信息，将两张图片都划分为固定大小的像素块，对于A中的每一个像素块，在B’中寻找与之最相近的像素块来代替。当像素块足够小，且全部替代完成后进行平滑等处理后，即刻获得用B’的风格表现A的风格迁移结果图。
在这里插入图片描述

Liao等人首先预训练一个VGG19网络，通过深度学习提取图像的特征，然后将PatchMatch从图像领域扩展到了特征领域，有效指导了语义级的视觉属性迁移。该算法匹配相对精准，但只能对语义相似的内容进行迁移，缺少泛化能力。
在这里插入图片描述

2 基于模型迭代的风格迁移算法

虽然基于图像迭代的方法可以产生效果出色的风格合成图像，但是存在效率低下的问题。而基于模型迭代的图像风格迁移方法通过大量数据训练生成模型，基于模型迭代的风格迁移算法主要有基于生成模型的风格迁移和基于图像重构解码器的风格迁移两种。

2.1 基于生成模型的风格迁移

Johnson等人最早提出了迭代优化生成模型的图像风格迁移方法，即快速风格迁移[12]。与之前训练生成模型时使用逐个像素比较的损失函数相比，感知损失函数对预训练 VGG 模型提取的高层抽象特征表示进行平方求差，这部分的问题求解与Gatys 等人算法是一致的。具体而言，Johnson 等人的方法为使用残差网络［30］作为生成模型的基本组件，训练数据使用 COCO数据集，感知损失函数可以表示如下：
在这里插入图片描述
其中：λc、λs 和 λTV分别表示内容损失函数的权重系数、风格损失函数的权重系数和图像平滑函数的权重系数；x表示网络输入，f(x)表示生成模型函数；yc表示预训练VGG模型从训练图像中提取的内容特征表示，ys表示预训练 VGG 模型从风格图像中提取的风格特征表示。
在这里插入图片描述
快速风格迁移算法开创了新的风格迁移思路。此外，Ulyanov等人也采用了类似的网络架构[13]，并通过实验表明了在生成模型训练过程中，使用实例归一化替代批量归一化可以显著提高生成图像的质量。Zhang 等人构建了一个可以训练多种风格的生成模型[15]，实现了多风格的快速风格迁移。

此外，无监督的生成对抗网络（如：CycleGAN，DiscoGAN等）也在图像风格迁移方面有同样出色的效果。但是，目前的生成对抗网络在模型训练方面相当不稳定，判别模型的设定使得网络难以指向明确的图像风格。此外，生成对抗网络是根据图像散度分布的迭代优化来进行对抗训练，而不是根据图像的内容、纹理和颜色，因此使用生成对抗网络进行图像风格迁移的过程显得难以控制。
在这里插入图片描述

2.2 基于图像重构解码器的风格迁移

基于图像迭代存在着参数调整和效率低下两个弊端，而快速风格迁移虽然缓解了效率低下的问题，但只能针对特定风格进行模型训练，并且仍然无法避免参数调整的问题。为了克服这些问题，Li 等人提出了一种基于图像重构解码器的风格迁移算法[15]，使得网络可以不经过重复训练而对任意风格进行迁移。该算法的主要创新点如下：

通过特征迁移（例如：whitening and coloring），直接将内容特征数据匹配到风格图像的深层特征空间。
将特征变换与预先训练的一般编解码器网络相结合，使迁移过程可以通过简单的前馈操作来实现。

3 应用举例

艺术审美效果/移植到app；
由卫星照片生成地图（地图绘制）；
由黑白图像生成彩色图像；
生成字体
由手绘图片生成真实照片（嫌犯画像绘制）；
由低分辨率图片生成高分辨率图片（超分辨率重建）；

4 未来研究方向

改进网络结构，提高时效性（作为移动终端应用）；
迁移学习理论的完善（数学层面），解释各卷积层内风格和内容特征的联系；
针对目标图像/风格进行改进（文字、头像、水墨画等）；
人脸图像迁移的优化（增加准确度）；
针对特定的区域进行改进（地理图像中的植被、河流、居民区等）；
保留景深的风格迁移
预处理和后处理的方法（语义分割Mask特定对象；人机交互；平滑、融合处理等）。

5 参考文献

[1] Efros A, Freeman W T. Image quilting for texture synthesis and transfer[C]/ /Proc of the 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press,2001: 341-346.
[2] Hertzmann A, Jacobs C E, Oliver N, et al. Image analogies［C］/ /Proc of the 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press，2001: 327-340．
[3] N. Ashikhmin. Fast texture transfer. IEEE Computer Graphics and Applications, 23(4):38–43, July 2003.
[4] H. Lee, S. Seo, S. Ryoo, and K. Yoon. Directional Texture Transfer. In Proceedings of the 8th International Symposium on Non-Photorealistic Animation and Rendering, NPAR ’10, pages 43–48, New York, NY, USA, 2010. ACM.
[5] 陈淑環,韦玉科,徐乐,董晓华,温坤哲.基于深度学习的图像风格迁移研究综述[J].计算机应用研究,2019,36(08):2250-2255.
[6] 裴斐. 基于深度卷积神经网络的图像风格迁移系统研究[D].宁夏大学,2019.
[7] Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style [J].arXiv preprint arXiv: 1508. 06576, 2015
[8] Gatys L A, Bethge M, Hertzmann A, et al. Preserving color in neuralartistic style transfer [J]. arXiv preprint arXiv: 1606. 05897, 2016.
[9] Risser E, Wilmot P, Barnes C. Stable and controllable neural texturesynthesis and style transfer using histogram losses
[10] Li Chuan, Wand M. Combining Markov random fields and convolutional neural networks for image synthesis [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition, Piscataway, NJ: IEEE Press,2016: 2479-2486
[11] Liao Jing, Yao Yuan, Yuan Lu, et al. Visual attribute transfer through deep image analogy [J]. arXiv preprint arXiv: 1705. 01088, 2017
[12] Johnson J, Alahi A, Li Feifei. Perceptual losses for real-time style transfer and super-resolution [C]// Proc of European Conference on Computer Vision. [S. I. ] : Springer Press, 2016: 694-711
[13] Ulyanov D, Lebedev V, Vedaldi A, et al. Texture networks: feed-for- ward synthesis of textures and stylized images[EB /OL].
[14] Zhang Hang, Dana K. Multi-style generative network for real-time transfer[EB/OL].
[15] Li Yijun, Fang Chen, Yang Jimei, et al. Universal style transfer via feature transforms [EB/OL].