(FUNIT)Few-Shot Unsupervised Image-to-Image Translation

        如绝大多数机器学习领域一样,人工智能“造假”的成本可不低。一个成熟的模型是由大量训练数据“喂”出来的。训练样本不够,模型吐出来的只能被称为“半成品”。

        英伟达的研究科学家刘洺堉等人,发明了一个称为 FUNIT (Few-shot Unsupervised Image-to-image Translation)的小样本非监督图像转换模型,只需少量样本(几张照片),就能将一张新图片中的一些姿势、五官分布等特征转换到这些样本图上。 赋予AI 可以媲美人类的“脑补”能力:“看几眼”新物种,便能“推测”出新物种某些(与新图片一致的)动作姿势,就像有人第一眼看到独角兽,便能想象它怎样奔跑。

1  FUNIT 模型框架

        模型由两部分组成:条件图像生成网络(Conditional image generator)和多任务对抗判别网络(Multi-task Adversarial Discriminator criminator)。

1.1  条件图像生成网络

        首先是条件图像生成网络,它的功能类似传统 GAN 中的G,生成器网络。它的输入为一张“内容图”(Content Image)和一组“类别图”(Class Image),输出则会在结构上与内容图类似,但在类别上与类别图一样,实现图像风格转移

        训练时,条件图像生成网络在内容图和类别图上进行如此的转换,而测试时,类别图是训练集中从未出现的图像(即未见过的动物),期望输出未见过动物的新动作。

        在具体结构上面,条件图像生成网络是由内容编码器(Content encoder)、类别编码器(Class encoder)、解码器(Decoder)三部分组成。

        内容编码器含有 4 个二维卷积层和 2 层残差网络,将内容图像映射成内容编码。

        类别编码器含有 5 个二维卷积层和 1 个均值池化,分别将每个类别图像进行向量化,再取均值作为类别编码。

        解码器含有多个自适应实例标准化残差网络(AdaIN Residual Blocks),即残差网络模型利用 AdaIN(Adaptive Instance Normalization)做归一化层。AdaIN 是风格迁移模型中的一个手段,本质是对 Instance Normalization(实例标准化)的改进,可以进行任意风格的图像迁移。除此之外,解码器还存有多个卷积层,将内容编码做仿射变换(即风格迁移,仿射变换的参数由类别编码经过全连接层变换得到),得到具有内容图像特征的类别图像类似图。

1.2  多任务对抗判别网络

        多任务对抗判别网络的功能与传统GAN 中的判别器D类似。它需要判断图像是真实图像还是条件图像生成网络产生的转换图像。无论是哪种图像,判断失败都会加大惩罚,即加大损失函数,通过最小损失来逼生成网络的转换图像越来越逼真。而与传统的判别网络不同,FUNIT 的判别模型为 Patch GAN discriminator,有 1 个卷积层和 10 个残差网络 ,和直接输出真伪的传统判别网络相比,Patch GAN 判别网络的输出是一个 N*N 矩阵,每个矩阵元素代表对输入的某一图块的真伪判断。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值