论文总结：基于深度学习的图像风格迁移研究

最新推荐文章于 2025-05-03 09:29:39 发布

FlynnLi

最新推荐文章于 2025-05-03 09:29:39 发布

阅读量9.1k

点赞数 11

分类专栏：论文笔记深度学习文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_43738067/article/details/118774857

版权

论文笔记同时被 2 个专栏收录

1 篇文章

订阅专栏

深度学习

1 篇文章

订阅专栏

基于深度学习的图像风格迁移研究

前言
图像风格迁移方法
- 基于图像迭代的图像风格迁移方法
- 基于模型迭代的图像风格迁移方法
卷积神经网络
生成对抗网络
CycleGAN

前言

什么是深度学习？
深度学习是机器学习的一种，机器学习是研究人工智能的必经途径。深度学习以神经网络为核心，神经网络由输入层、隐藏层和输出层组成。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，图像处理，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。在这里插入图片描述
什么是图像风格迁移？
图像风格迁移是将一张图像x的艺术风格迁移到另一张图像y上，使得迁移后生成的图像保持图像y的图像内容，并具有图像x的艺术风格，艺术风格可以是油画、水墨、漫画、卡通…
在这里插入图片描述

图像风格迁移方法

利用深度学习方法进行风格迁移是图像领域研究的热点之一。当前主流的基于深度学习的图像风格迁移方法可以划分为两类：基于图像迭代的图像风格迁移方法、基于模型迭代的图像风格迁移方法。

基于图像迭代的图像风格迁移方法

最具有代表性的基于图像迭代的图像风格迁移方法，也是最原始的图像迁移方法，是由Leon A. Gatys等人在《A Neural Algorithm of Artistic Style》提出的。Leon A. Gatys等人在论文提出的基于图像迭代的风格迁移方法，经过上千次的迭代，生成不错的效果图，完美地融合原始图像的内容和油画的艺术风格。Leon A. Gatys在论文中主要表达：发现了卷积神经网络(CNN)的内容和风格是可以分割的。论文的主要思路是使用卷积神经网络进行特征提取，然后纹理合成，计算内容损失和风格损失，梯度下降优化总损失，不断迭代图像得到艺术图像。

Leon A. Gatys等人在论文里使用的是不带全连接层的VGG19卷积神经网络，在VGG19中主要使用了其16个卷积层以及5个池化层的特征空间。通过CNN抽取内容图的内容特征，以及油画图的风格特征，并将conv1-conv5的结果分别保存下来。提取结果可以看出网络中的不同层次描述了图像不同层次的信息：低层次描述小范围的边角、曲线，中层次描述方块、螺旋，高层次描述内容。
在这里插入图片描述
论文翻译参考https://www.cnblogs.com/Thinker-pcw/p/8243549.html

基于模型迭代的图像风格迁移方法

由于基于图像迭代的图像风格迁移方法迭代次数过多，迭代时间较长，为解决速度问题出现了快速风格迁移方法。最具有代表性且原始的基于模型迭代的图像风格迁移方法是Justin Johnson等人在《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》
提出的实时风格迁移方法，使用了图像风格转换网络作为模型，因生成速度快，又被称为快速风格迁移方法，图像风格转换网络也被称为快速风格化网络，用到的特征提取器是预训练的VGG16卷积神经网络。
在这里插入图片描述
论文翻译和详解参考https://blog.csdn.net/kid_14_12/article/details/85871965

卷积神经网络

卷积神经网络（CNN），即能够进行卷积运算并且具有一定层次结构的网络，属于前馈神经网络。卷积神经网络最大的特点就是降低数据的维度、提取并保留图片所包含的特征。卷积神经网络的用处有很多，比如图像分类、场景检索、自动驾驶、安防、目标分割…常见的卷积神经网络模型有LeNet，AlexNet，GoogLeNet，VGGNet，ResNet…刚刚提到的Leon A. Gatys和Justin Johnson使用的VGG19和VGG16都是VGG模型。

卷积神经网络是深层神经网络中最善于处理图片任务的。卷积神经网络包含多个小计算单元，以前馈方式分层次地处理视觉信息。通常来说是把池化层均匀地插入在连续的卷积层之间，为了逐渐地降低数据量，这样就能有效减少网络参数的数量。同时这样可以减少计算机资源的消耗，并有效地控制过拟合。

生成对抗网络

除了卷积神经网络用在图像风格迁移，生成对抗网络（Generative Adversarial Networks，GAN）同样可以进行风格迁移。GAN的思想来自于博弈论中的零和博弈，随着 GAN 的理论和模型在不断发展，GAN 在非常多的领域有着越来越深的应用，比如计算机视觉(CV)、自然语言处理(NLP)等科研领域。GAN应用到一些场景上，比如有图像风格转换、图像修复、去噪、文本生成图像、超分辨率、文本生成、音乐生成等等。WGAN、LSGAN、BEGAN等都是GAN发展过程中重要的模型，在图像风格转换方面，CGAN、Pix2Pix、CycleGAN、StarGAN等都是非常经典的模型。

GAN划分成一个生成器(Generator, 简写为G)，和一个判别器(Discriminator, 简写为D)。生成器将一个随机变量z作为生成器的输入，生成器通过已有图像的分布生成期望的数据，得到一个逼真的图像，去欺骗判别器，使得判别器无法分辨真假；判别器用真实图像的数据和生成器生成的图像的数据作为输入，目的是辨别出生成器生成的假数据。然后生成器和判别器二者之间不断对抗，在对抗中二者不断更新迭代、发展进步。对抗博弈的结果是，在理想状态下生成器可以生成“以假乱真”的图像，判别器难以判断生成器生成的图像是不是真实的。这样就得到了一个生成式模型，用这样的模型去生成图像。
在这里插入图片描述

CycleGAN

CycleGAN的组成结构从GAN的原理上划分，其实是两个镜像的GAN，组成一个环形的网络结构。因此CycleGAN网络结构由两个判别器和两个生成器组成。
在这里插入图片描述
用CycleGAN进行图像风格迁移，CycleGAN最大的特点是无监督，也就是不要求训练数据是成对的，只需要提供不同域（domain）的图像就能成功训练不同域之间图像的映射。CycleGAN的研究论文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》。