[论文笔记] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

_孤鸿寄语_

已于 2022-05-13 01:13:37 修改

阅读量415

点赞数 1

分类专栏：论文笔记 Domain Adaptation 文章标签：计算机视觉深度学习人工智能

于 2022-05-12 12:25:14 首次发布

原文链接：https://zhuanlan.zhihu.com/p/161670240

版权

论文笔记同时被 2 个专栏收录

17 篇文章

订阅专栏

Domain Adaptation

13 篇文章

订阅专栏

CycleGAN是一种利用循环一致性损失进行无配对图像到图像转换的技术，解决了传统方法依赖图像对和领域特定先验的问题。尽管在颜色和纹理变换上表现出色，但CycleGAN在处理大的几何变换时仍存在挑战，与配对训练相比存在差距。该模型包括两个生成网络和两个判别网络，通过对抗性损失和循环一致性损失进行训练，以实现两个不同图像域之间的转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://arxiv.org/abs/1703.10593

Contributions

pix2pix的image-to-image translation需要图像对，而获得这样的训练数据不仅困难而且昂贵。而目前不需图像对的方法通常是domain-specific的，或者需要假定一些先验，通用性不够，并且效果也不是太好。

本文提出了cycle consistency loss（循环一致性损失），使得通用的 unpaired image-to-image translation成为可能。只需要给定两个domain的 image collection，CycleGAN就能挖掘集合层面的监督信息，实现图像迁移。

文章讨论了CycleGAN的缺陷：

CycleGAN在颜色和纹理上的变换还是比较成功的，但在比较大的几何变换上还是比较难达到的
和 paired training对比而言，还是具有很大差距的

Methodology （原文图片，侵删）

Model 包含两个G网络（ $G=G_{X \rightarrow Y}, F=G_{Y \rightarrow X}$ ）和两个D网络（ $D_Y, D_X$ ）。生成网络 $G=G_{X \rightarrow Y}$ 的功能是：使图像域 $X$ 的图像经过该网络生成图像域 $Y$ 的图像，而 $F=G_{Y \rightarrow X}$ 则相反。判别网络 $D_Y$ 的功能是：判别网络 $G=G_{X \rightarrow Y}$ 生成的图像域 $Y'$ 和目标图像域 $Y$ 的差异，而 $D_X$ 也类似

Adversarial Loss

两个映射函数都应用对抗性损失，对应映射函数 $G=G_{X \rightarrow Y}$ ，我们应用如下损失：

$G$ 试图生成图像 $G(x)$ 看起来与 $Y$ 域中的图像相似，而 $D_Y$ 的目的是区分平移样本 $G(x)$ 和真实样本 $y$ 。 $G$ 的目标是最小化这个目标，而 $D_Y$ 则试图最大化这个目标，即

类似的对应映射 $F=G_{Y \rightarrow X}$ 和鉴别器 $D_X$ ，即

Cycle Consistency Loss

理论上，对抗性训练可以学习映射 $G$ 和 $F$ ，它们分别产生与目标域 $Y$ 和 $X$ 相同分布的输出。仅靠对抗损失不能保证所学习的函数能将单个输入 $x_i$ 映射到期望的输出 $y_i$ 。为此，本文提出了Cycle Consistency Loss，如Figure 3 (b)。对于来自 $X$ 域的每一幅图像 $x_i$ ，图像循环转化应该能够将 $x_i$ 带回原始图像： $x\rightarrow G(x) \rightarrow F(G(x)) \approx x$ ,称之为forward cycle consistency。类似的如Figure 3 (c)，对于每个图像 $y$ , $G$ 和 $F$ 也应该满足： $y\rightarrow F(y) \rightarrow G(F(y)) \approx y$ ,用循环一致性损失来激励这种行为: