深度学习之图片风格转换

最新推荐文章于 2024-08-10 10:22:34 发布

视觉一只白

最新推荐文章于 2024-08-10 10:22:34 发布

阅读量5k

点赞数 6

分类专栏：深度学习

本文链接：https://blog.csdn.net/zhangjunp3/article/details/79828380

版权

本文介绍了深度学习在图片风格转换的应用，包括基于深度残差网络的生成网络和固定参数的损失网络。通过计算内容损失和风格损失，实现图像的风格转换。实验中使用预训练权重进行初始化并取得了不错的效果。

摘要由CSDN通过智能技术生成

一、话说风格转换

以目前的深度学习技术，如果给定两张图像，完全有能力让计算机识别出图像具体内容。而图像的风格是一种很抽象的东西，人眼能够很有效地的辨别出不同画家不同流派绘画的风格，而在计算机的眼中，本质上就是一些像素，多层网络的实质其实就是找出更复杂、更内在的特性(features)，所以图像的风格理论上可以通过多层网络来提取图像里面可能含有的一些有意思的特征。

根据前面第一篇论文中提出的方法，风格迁移的速度非常慢的。在风格迁移过程中，把生成图片的过程当做一个“训练”的过程。每生成一张图片，都相当于要训练一次模型，这中间可能会迭代几百几千次。从头训练一个模型相对于执行一个已经训练好的模型来说相当费时。现在根据前面第二篇论文提出的另一种模型，使得把生成图片当做一个“执行”的过程，而不是一个“训练”的过程。

快速风格迁移的网络结构包含两个部分。一个是“生成网络”（Image Transform Net），一个是“损失网络”（Loss Network）。生成网络输入层接收一个输入图片，最终输出层输出也是一张图片（即风格转换后的结果）。模型总体分为两个阶段，训练阶段和执行阶段。模型如图所示。其中左侧是生成网络，右侧为损失网络。

训练阶段：选定一张风格图片。训练过程中，将数据集中的图片输入网络，生成网络生成结果图片y，损失网络提取图像的特征图，将生成图片y分别与目标风格图片ys和目标输入图片（内容图片）yc做损失计算，根据损失值来调整生成网络的权值，通过最小化损失值来达到目标效果。

执行阶段：给定一张图片，将其输入已经训练好的生成网络，输出这张图片风格转换后的结果。

二、网络结构

2.1 生成网络

对于生成网络，本质上是一个卷积神经网络，这里的生成网络是一个深度残差网络，不用任何的池化层，取而代之的是用步幅卷积或微步幅卷积做网络内的上采样或者下采样。这里的神经网络有五个残差块组成。除了最末的输出层以外，所有的非残差卷积层都跟着一个空间性的instance-normalization，和RELU的非线性层，instance-normalization正则化是用来防止过拟合的。最末层使用一个缩放的Tanh来确保输出图像的像素在[0,255]之间。除开第一个和最后一个层用9x9的卷积核(kernel)，其他所有卷积层都用3x3的卷积核。