(FUNIT)Few-Shot Unsupervised Image-to-Image Translation

最新推荐文章于 2023-03-02 15:46:31 发布

HHzdh

最新推荐文章于 2023-03-02 15:46:31 发布

阅读量2.2k

点赞数

分类专栏： PyTorch对抗生成网络文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/weixin_44855366/article/details/122114506

版权

PyTorch对抗生成网络专栏收录该内容

26 篇文章 13 订阅

订阅专栏

如绝大多数机器学习领域一样，人工智能“造假”的成本可不低。一个成熟的模型是由大量训练数据“喂”出来的。训练样本不够，模型吐出来的只能被称为“半成品”。

英伟达的研究科学家刘洺堉等人，发明了一个称为 FUNIT （Few-shot Unsupervised Image-to-image Translation）的小样本非监督图像转换模型，只需少量样本（几张照片），就能将一张新图片中的一些姿势、五官分布等特征转换到这些样本图上。赋予AI 可以媲美人类的“脑补”能力：“看几眼”新物种，便能“推测”出新物种某些（与新图片一致的）动作姿势，就像有人第一眼看到独角兽，便能想象它怎样奔跑。

1 FUNIT 模型框架

模型由两部分组成：条件图像生成网络（Conditional image generator）和多任务对抗判别网络（Multi-task Adversarial Discriminator criminator）。

1.1 条件图像生成网络

首先是条件图像生成网络，它的功能类似传统 GAN 中的G，生成器网络。它的输入为一张“内容图”（Content Image）和一组“类别图”（Class Image），输出则会在结构上与内容图类似，但在类别上与类别图一样，实现图像风格转移。

训练时，条件图像生成网络在内容图和类别图上进行如此的转换，而测试时，类别图是训练集中从未出现的图像（即未见过的动物），期望输出未见过动物的新动作。

在具体结构上面，条件图像生成网络是由内容编码器（Content encoder）、类别编码器（Class encoder）、解码器（Decoder）三部分组成。

内容编码器含有 4 个二维卷积层和 2 层残差网络，将内容图像映射成内容编码。

类别编码器含有 5 个二维卷积层和 1 个均值池化，分别将每个类别图像进行向量化，再取均值作为类别编码。

解码器含有多个自适应实例标准化残差网络（AdaIN Residual Blocks)，即残差网络模型利用 AdaIN（Adaptive Instance Normalization）做归一化层。AdaIN 是风格迁移模型中的一个手段，本质是对 Instance Normalization（实例标准化）的改进，可以进行任意风格的图像迁移。除此之外，解码器还存有多个卷积层，将内容编码做仿射变换（即风格迁移，仿射变换的参数由类别编码经过全连接层变换得到），得到具有内容图像特征的类别图像类似图。

1.2 多任务对抗判别网络

多任务对抗判别网络的功能与传统GAN 中的判别器D类似。它需要判断图像是真实图像还是条件图像生成网络产生的转换图像。无论是哪种图像，判断失败都会加大惩罚，即加大损失函数，通过最小损失来逼生成网络的转换图像越来越逼真。而与传统的判别网络不同，FUNIT 的判别模型为 Patch GAN discriminator，有 1 个卷积层和 10 个残差网络，和直接输出真伪的传统判别网络相比，Patch GAN 判别网络的输出是一个 N*N 矩阵，每个矩阵元素代表对输入的某一图块的真伪判断。

HHzdh

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
(FUNIT)Few-Shot Unsupervised Image-to-Image Translation

如绝大多数机器学习领域一样，人工智能“造假”的成本可不低。一个成熟的模型是由大量训练数据“喂”出来的。训练样本不够，模型吐出来的只能被称为“半成品”。英伟达的研究科学家刘洺堉等人，发明了一个称为 FUNIT （Few-shot Unsupervised Image-to-image Translation）的小样本非监督图像转换模型，只需少量样本（几张照片），就能将一张新图片中的一些姿势、五官分布等特征转换到这些样本图上。赋予AI 可以媲美人类的“脑补”能力：“看几...
复制链接

扫一扫

专栏目录