简介
介绍基于CGAN的pix2pix模型,可用于实现多种配对图像翻译任务
原理
配对图像翻译包括很多应用场景,输入和输出都是图片且尺寸相同
- 街道标注,街道实景
- 楼房标注,楼房实景
- 黑白图片,上色图片
- 卫星地图,简易地图
- 白天,夜晚
- 边缘,实物
pix2pix提供了一种通用的技术框架,用于完成各种配对图像翻译任务
作者还提供了一个在线Demo,包括曾经火爆一时的edge2cat,https://affinelayer.com/pixsrv/
pix2pix原理如下,典型的CGAN结构,但G只接受一个固定的输入X,可以理解为一个条件C,即不需要随机噪音,然后输出翻译后的版本Y
D接受一个X(CGAN中的C)和一个Y(真假样本),并判断X和Y是否为配对的翻译
除了标准的GAN损失函数之外,pix2pix还考虑了生成样本和真实样本之间的L1距离作为损失
L L 1 ( G ) = E x ∼ p x , y ∼ p y [ ∥ y − G ( x ) ∥ 1 ] L_{L_1}(G)=\mathbb{E}_{x\sim p_x,y\sim p_y}[\left \| y-G(x) \right \|_1] LL1(G)=