英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换

转载 2018年04月16日 00:00:00
林鳞 编译整理
量子位 出品 | 公众号 QbitAI

英伟达最近的一项研究看起来有点神奇。

一张普通的猫咪图像,可以被转换成一只老虎、一头狮子或一只美洲豹。

640?wx_fmt=png&wxfrom=5&wx_lazy=1&retryload=1
还是一张普通的猫咪图,还能被转换成不同品种的狗。

640?wx_fmt=png&wxfrom=5&wx_lazy=1
这种实时转换技术不仅能用于图像,还能用于视频——


这是英伟达最新创造的一项技术。在最近发布的论文Multimodal Unsupervised Image-to-Image Translation中,研究人员提出了一种多模态无监督的图像到图像(image to image)转换框架。

这个框架的神奇之处在于,一张猫的图像可以同时转换成多种动物,能够进行一对多的图像转换,打破了原来一对一转换的限制。

640?wx_fmt=png “狗生猫,猫生万物”

640?wx_fmt=png 冬夏场景转换

此外,这个框架还支持用户通过提供示例样式的图像控制转换输出的风格。
640?wx_fmt=png
这是一项有趣的技术,不仅能够帮助游戏开发者和电影制作者减少工作量和花费,还能让自动驾驶领域更快、更容易地产生多样化的训练数据。

640?wx_fmt=png 道路的冬夏转换

论文介绍

在论文Multimodal Unsupervised Image-to-Image Translation中,奈尔大学的Xun Huang、Serge Belongie联合英伟达的Ming-Yu Liu与Jan Kautz提出了一种多模态无监督的图像到图像转换问题的标准框架。

研究人员首先假设图像的潜在空间能够分解为内容空间和样式空间,之后再进一步假设,不同领域的图像内容空间相同,但样式空间不同。

640?wx_fmt=png

为了将一张图像转换为指定领域的图像,研究人员在目标样式空间中将图像的内容代码和随机的样式代码重新组合。这样,内容代码编码的信息在转换过程中将被保留,而样式代码代表了与输入图像无关的剩余的变体。

640?wx_fmt=png

通过抽取不同风格的代码,这个模型可以输出风格多样且多模态的图像。

实验表明,这个模型在建立多模态输出分布时非常高效,并且和目前最先进的方法相比图像质量更高。

640?wx_fmt=png 与现有的样式转换模型的对比

这并不是英伟达在图像转换领域的首次探索,这篇论文是在去年英伟达的NIPS论文Unsupervised Image-to-Image Translation Networks中提出的模型基础上改进的。

相关资料

论文地址:

https://arxiv.org/abs/1804.04732

代码和预训练模型获取地址:

https://github.com/nvlabs/MUNIt

作者系网易新闻·网易号“各有态度”签约作者


诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



Python实现对12500张猫狗图像的精准分类

微信公众号关键字全网搜索最新排名【机器学习算法】:排名第一【机器学习】:排名第一【Python】:排名第三【算法】:排名第四源|51CTO官微在这篇文章中,我们将展示如何建立一个深度神经网络,能做到以...
  • Mbx8X9u
  • Mbx8X9u
  • 2018年01月19日 00:00
  • 652

利用resnet 做kaggle猫狗大战图像识别,秒上98准确率

1、数据介绍 这份数据集来源于Kaggle,数据集有12500只猫和12500只狗。在这里简单介绍下整体思路 1、1从图片中直接训练一个小网络(作为基准方法),也就是普通的cnn方法 2、2后面...
  • shizhengxin123
  • shizhengxin123
  • 2017年05月18日 16:30
  • 10568

TensorFlow 卷积神经网络之使用训练好的模型识别猫狗图片

此系列的上一篇是 训练猫狗图片识别模型TensorFlow 卷积神经网络之猫狗识别,这片文章是介绍,训练后的模型应该如何使用。 本文逻辑: 1. 我从网上下载了十几张猫和狗的图片,用于检验我们训练...
  • u012373815
  • u012373815
  • 2018年01月31日 21:14
  • 1314

TensorFlow 卷积神经网络之猫狗识别

这份数据集来源于Kaggle,数据集有12500只猫和12500只狗。在这里简单介绍下整体思路 1. 处理数据 2. 设计神经网络 3. 进行训练测试 1. 数据处理 将图片数据处理为...
  • u012373815
  • u012373815
  • 2017年12月11日 00:21
  • 3182

使用Keras做猫狗分类

本文介绍一个图像分类问题,目标是得到输入图像的类别。使用的方法是训练卷积神经网络,数据集包括上千张猫和狗的图像。 使用的框架是Keras库,数据集下载:这里写链接内容 1下载test_set 和t...
  • poilkj110
  • poilkj110
  • 2017年12月20日 14:13
  • 798

图像识别 常用数据集

1.MNISTMNIST, [em’nist]. 0~9的手写字体. format 图像尺寸, 28*28. 像素取值为[0,1], 由浅到深. size train set: 60K tes...
  • chuchus
  • chuchus
  • 2017年09月11日 09:52
  • 620

基于TensorFlow的Cats vs. Dogs(猫狗大战)实现和详解(1)

2017.5.29   猫狗大战,tensorflow实现,超详细讲解
  • qq_16137569
  • qq_16137569
  • 2017年05月29日 15:33
  • 14234

DataCastle[猫狗大战]冠军——Kuhung 思路及代码

我是参加DataCastle猫狗大战的选手,kuhung。在测评中,我提交的数据集最后评分0.98639。以下是我的备战过程及心得体会。(最后有完整代码及较全面的注释)...
  • DataCastle
  • DataCastle
  • 2016年08月12日 10:46
  • 3824

猫生病了,老鼠在干嘛?

猫生病了,老鼠大声朗诵诗集,并修剪盆花; 猫生病了,老鼠慢慢刷牙洗脸,并打扫房间; 猫生病了,老鼠倚在窗边欣赏夜色,并对流星许愿; 猫生病了,老鼠也病了; 他说:“我还是喜欢那种时时紧张,处处小心,夜...
  • JayKuen
  • JayKuen
  • 2009年07月24日 11:28
  • 343

DataCastle[猫狗大战] ——Yinjh比赛全部代码

DataCastle猫狗大战参赛者需要从训练集里建立一个模型去识别测试集里的小狗来。谁能识别出最多的数量,谁的成绩就更好。参赛者需要提交你识别出认为是小狗图片的图片名,不包括文件类型,例如:xabcd...
  • DataCastle
  • DataCastle
  • 2016年08月12日 10:53
  • 947
收藏助手
不良信息举报
您举报文章:英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换
举报原因:
原因补充:

(最多只允许输入30个字)