Pix2Pix——基于GAN的图像风格迁移模型

最新推荐文章于 2025-05-24 15:12:50 发布

ZiSeoi

最新推荐文章于 2025-05-24 15:12:50 发布

阅读量2.2w

点赞数 33

分类专栏： CV论文解读文章标签：神经网络

本文链接：https://blog.csdn.net/wzduang/article/details/108029771

版权

CV论文解读专栏收录该内容

1 篇文章

订阅专栏

Pix2Pix是一种基于生成对抗网络（GAN）的图像风格迁移模型，能够实现从输入图像到输出图像的高质量转换。它利用条件GAN进行图像到图像的翻译，适用于风格迁移、图像编辑等多种任务。模型采用U-Net结构的生成器和PatchGAN结构的判别器，结合L1损失函数优化，实现了清晰且真实的图像生成效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pix2Pix——基于GAN的图像风格迁移模型

写在前面

本文是文献Image-to-image translation with conditional adversarial networks的笔记。Pix2Pix 基于 GAN 架构，利用成对的图片进行图像翻译，即输入为同一张图片的两种不同风格，可用于进行风格迁移。

本文目录

Pix2Pix——基于GAN的图像风格迁移模型

引言部分

计算机视觉方面有许多问题涉及到了将输入图像转换成相应的输出图像。即使为解决某种特定问题有针对性的设计的算法，归根结底都是像素到像素的映射（Pixel to Pixel）。
由此，文章认为条件对抗网络（GAN, Generative Adversarial Networks ）是对该类问题的一种通用解决方案。

为什么要基于GAN

Pix2Pix效果图

如今，卷积神经网络（CNN）成为了各种图像预测问题背后的常用方法。但是要使得一个 CNN 学会最小化损失函数，仍然需要大量的人工甚至专家知识进行损失函数的设计。如果只是随意地采取一个简单的损失函数，例如欧氏距离。仅仅最小化预测像素与地面真实像素之间的欧氏距离，而欧式距离平均了所有可能输出，所得到的结果将会是模糊的。

因此，如果我们可以只指定一个高级目标，例如“无法区分输出与现实（make the output indistinguishable from reality）”，然后自动学习适合于实现该目标的损失函数，就可以得到一个解决该类问题的通用框架，而GAN正好可以做到。

对于为何选择 GAN ，文章的原话是这样的：
GANs learn a loss that tries to classify if the output image is real or fake, while simultaneously training a generative model to minimize this loss. Blurry images will not be tolerated since they look obviously fake. Because GANs learn a loss that adapts to the data, they can be applied to a multitude of tasks that traditionally would require very different kinds of loss functions.

Pix2Pix 的结构

一个 GAN 结构的网络至少由两部分构成：生成器模型（Generative Model）与判别器模型（Discriminative Model）。GAN 通过两个模块的互相博弈学习产生相当好的输出。一个优秀的 GAN 需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。

Pix2Pix 的生成器模型

Pix2Pix 的生成器模型基于 U-Net 结构。U-Net 的结构示意图如下：
U-Net结构
U-Net 是一个全卷积网络，在计算机视觉的语义分割领域同样有着广泛的应用。位于最底层的特征图（feature map）通过逆卷积的形式生成图像。

上图解释了 U-Net 结构如何通过逆卷积生成与输入相同维度的图像。有许多人将 U-Net 的这个架构称为反卷积，但卷积与反卷积是相对于一个卷积核在前向传播与反向传播的两种操作，这两种操作是互相对应的。所以本人认为将其称为逆卷积更为合理。同时，U-Net 除了编码-解码（Encoder-decoder）结构外，还具有跳过连接（skip connections）的结构。

在这里插入图片描述

Pix2Pix 的判别器模型

GAN 的判别器采用了 PatchGAN 的判别器结构。PactchGAN 与一般的 GAN 有什么不同之处呢？

一般 GAN 的判别器只需要输出一个 true or fasle 的矢量，代表对整张图像的评价。但是 PatchGAN 输出的是一个 N x N 的矩阵，这个 N x N 的矩阵里的每一个元素，比如 a(i,j) 只有 True or False 这两个选择即判别器输出的 label 是 N x N 的矩阵，矩阵中的每一个元素是 True 或者 False。

这样的结果往往是通过卷积层来达到的，因为逐次叠加的卷积层最终输出的这个N x N 的矩阵，其中的每一个元素，实际上代表着原图中的一个比较大的感受野，即对应原图的一个 Patch ，因此具有这样结构以及这样输出的 GAN 被称之为 PatchGAN。下面是 Pix2Pix 论文原作者对该问题的回答：

在这里插入图片描述
问题链接：https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix/issues/39

Pix2Pix 目的函数设计

Pix2Pix 的目的可以表示为
$\mathcal{L}_{cGAN}(G,D ) = \mathbb{E}_{x,y} [log D(x,y)]+ \\\mathbb{E}_{x,z}[log(1-D(x,G(x,z)))]$
其中 G 会尝试将目的最大化，而 D 会尝试将目的最小化。可以用下面的公式表示
$G^{*} =arg min_{G} max_{D} L_{cGAN}(G, D)$
为了探索目的函数中各参数的重要性，作者还对这个函数进行了一些探索。例如团队还提出了去掉原图像 x 的函数：
$\mathcal{L}_{cGAN}(G,D ) = \mathbb{E}_{y} [log D(y)]+ \\\mathbb{E}_{x,z}[log(1-D(G(x,z)))]$
通过比较该函数与原函数的区别，发现将生成图像与原图像融合是有益的。同时为了更好地使得输出图像接近真实图像，作者使用了 L1 距离而不是 L2 距离，因为 L1 距离鼓励减少模糊。修正后公式如下
$\mathcal{L}_{L1}(G ) = \mathbb{E}_{x,y,z} [||y-G(x,z)||_{1}]$
最终得到的损失函数为
$G^{*} =arg min_{G} max_{D} L_{cGAN}(G, D)+\lambda\mathcal{L}_{L1}(G )$