pix2pix：使用条件对抗网络进行图像到图像的转换

最新推荐文章于 2025-03-15 16:24:09 发布

丁希希哇

最新推荐文章于 2025-03-15 16:24:09 发布

阅读量2.1k

点赞数 31

分类专栏： AIGC阅读学习文章标签： AIGC 人工智能深度学习算法图像生成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47748259/article/details/138135753

版权

AIGC阅读学习专栏收录该内容

39 篇文章

订阅专栏

本文探讨了图像建模的结构化损失与条件GAN在pix2pix模型中的应用，提出了一种通用框架解决图像到图像转换问题。文章详细介绍了目标函数、网络架构，特别是U-Net生成器和PatchGAN判别器的设计，以及如何结合L1loss和GANloss优化图像质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、前言
二、模型方法

pix2pix模型本质上是cGAN的一种特殊实现。一种Image-to-Image的实现，是一种基于GAN的图像到图像翻译架构，生成部分G用U-Net代替Encoder-Decoder。

一、前言

（一）研究目标

文章的主要目的是开发一个通用框架来解决图像-图像转换（从像素预测像素）的所有问题：
在这里插入图片描述

（二）图像建模的结构化损失

非结构化： 图像到图像的转换问题通常被表述为每像素分类或回归。这些公式将输出空间视为“非结构化”，因为每个输出像素被认为有条件地独立于给定输入图像的所有其他像素。

结构化： 结构化损失考虑了输出的联合配置，而不仅仅是单个像素的值。这意味着损失函数可以惩罚整个输出图像中的像素配置，而不仅仅是单个像素值的差异。

条件 GAN 会学习结构化损失： 条件生成对抗网络的损失是通过训练来学习的，因此可以根据数据集的特征来调整损失函数。这使得条件生成对抗网络可以惩罚任何可能的输出和目标之间的结构差异，而不仅限于特定的损失函数。

（三）条件GAN

cGAN就是在GAN的基础上加了一个条件向量。生成图片的时候在噪声后面接个条件向量，判别的时候图片也是和这个条件向量一起判别，这个条件向量在MNIST数据集上可以代表数字，CIFAR数据集上可以代表类别，总之按给定的条件生成相应的图像。

GAN 是生成模型，它学习从随机噪声向量 z 到输出图像 y 的映射，G : z → y。
条件 GAN 学习从观察到的图像 x 和随机噪声向量 z 到 y, G : {x, z} → y 的映射。生成器 G 被训练为产生无法通过对抗性训练的判别器 D 区分出“真实”图像的输出，D 被训练为尽可能好地检测生成器的“赝品”。

二、模型方法

pix2pix模型本质上是cGAN的一种特殊实现。一种Image-to-Image的实现，是一种基于GAN的图像到图像翻译架构，生成部分G用U-Net代替Encoder-Decoder。

在这里插入图片描述如上图，生成器G通过Unet结构，对输入图x编码与解码生成真实图片，判别器D在输入图x条件下，对于生成图片G(x)判别为假，对于真实图片判别为真，实现判别器的判别功能。

（一）目标函数

1、GAN与条件GAN

条件 GAN 的目标可以表示为：
在这里插入图片描述
为了测试条件判别器的重要性，我们还与判别器不观察 x 的无条件变体进行比较：

2、pix2pix的损失函数

pix2pix的目标函数采用将L1 loss与GAN loss相结合的方式：
在这里插入图片描述

L1 loss：

评估生成图与真实图的“距离”（像素之间的差异）
选用L1是因为这些距离函数作用在像素层面上会激励图像模糊化，而L1距离相较L2来说图像的模糊程度会更少。（不会捕捉高频信息，但能捕捉到低频信息，高频信息已经丢给判别器去捕捉了）

「低频」就是颜色缓慢变化，也就是灰度缓慢地变化，代表着那是连续渐变的一块区域；
「高频」就是频率变化快，相邻区域之间灰度相差很大。

通过下图可以看到，input输入了一张模糊的图片，在L1 losse，cGAN与L1 + cGAN下的图片清晰度对比，L1 + cGAN下图片清晰度较高。
在这里插入图片描述

（二）网络架构

生成器和判别器都使用卷积-BatchNorm-ReLu形式的模块。

1、带有跳跃连接的生成器

过去大部分做 Image-to-Image 任务的GAN的生成器都是通过对输入先下采样再上采样的方式生成图像（encoder-decoder结构）。但是这样会导致在下采样通过瓶颈层时丢失掉很多特征，但是实际上很多图像翻译问题的输入和输出之间共享大量低级信息，如轮廓和边缘。而 U-Net 结构就很好的解决了这个问题，用类似 ResNet 那样的方法把通过瓶颈层前的特征直接送到对称的上采样层上，这样就保留了图像的底层特征。

在这里插入图片描述

2、马尔可夫判别器（PatchGAN）

根据前面的损失函数分析可知，GAN 判别器仅对高频结构进行建模，而L1 项用于强制低频正确性，为了对高频进行建模，将我们的注意力限制在局部图像块的结构上就足够了。因此，文章设计了一种判别器架构（我们称之为 PatchGAN），它仅对补丁规模的结构进行惩罚。
马尔可夫判别器又叫 PatchGAN 分类器，这个判别器将一张图片视为一个马尔可夫随机场，如果像素之间的距离超过了一个Patch的直径就认为它们是独立无关的，实际上就是将图片分成很多小块（Patch）分别判别真假概率（Patch之间相互独立）。这样判别器的输出就不再是一个数值了，图片为真的概率为判别器输出结果平均的平均值。这么做的一个目的是为了方便捕捉图片的高频信息（纹理，边缘，风格等）。

这样的判别器有效地将图像建模为马尔可夫随机场，假设间隔大于斑块直径的像素之间是独立的。这种联系也是纹理和风格模型中的常见假设。因此，PatchGAN 也可以理解为纹理/风格损失的一种形式。

参考：
论文复现| pix2pix
pix2pix实现图片自动上色

博客等级

码龄5年

176
原创

4475
点赞

4800
收藏

3222
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

【论文精读】CLIP 改进工作（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso、CLIP4clip、ActionCLIP）
就叫潇洒哥: 博主有没有vild的实际配置文件路径这个文件vild_resnet50_fpn_coco.yaml
【论文精读】The Stable Signature: Rooting Watermarks in Latent Diffusion Models 稳定的签名：潜在扩散模型中的根水印
bupt_01: 可以交流下吗，我也是研究这个的
huggingface学习|用dreambooth和lora对stable diffusion模型进行微调
m0_74433432: Traceback (most recent call last): File "train_text_to_image_lora.py", line 975, in <module> main() File "train_text_to_image_lora.py", line 526, in main unet.to(accelerator.device, dtype=weight_dtype) File "/home/xyj/anaconda3/envs/sdLoRA/lib/python3.8/site-packages/diffusers/models/modeling_utils.py", line 1341, in to return super().to(*args, **kwargs) File "/home/xyj/anaconda3/envs/sdLoRA/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1174, in to return self._apply(convert) File "/home/xyj/anaconda3/envs/sdLoRA/lib/python3.8/site-packages/torch/nn/modules/module.py", line 780, in _apply module._apply(fn) File "/home/xyj/anaconda3/envs/sdLoRA/lib/python3.8/site-packages/torch/nn/modules/module.py", line 780, in _apply module._apply(fn) File "/home/xyj/anaconda3/envs/sdLoRA/lib/python3.8/site-packages/torch/nn/modules/module.py", line 780, in _apply module._apply(fn) [Previous line repeated 6 more times] File "/home/xyj/anac
huggingface学习|用dreambooth和lora对stable diffusion模型进行微调
m0_74433432: 为啥按照你的lora流程我的会报错呀，不是环境问题代码逻辑问题
huggingface学习|云服务器部署Grounded-Segment-Anything：bug总会一个一个一个一个又一个的解决的
老冥灵: https://github.com/IDEA-Research/Grounded-Segment-Anything/issues/479 把几个语句注释掉应该就行了

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。