量子位

追踪人工智能产品和技术新趋势,我们只专注报道AI

英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换

林鳞 编译整理
量子位 出品 | 公众号 QbitAI

英伟达最近的一项研究看起来有点神奇。

一张普通的猫咪图像,可以被转换成一只老虎、一头狮子或一只美洲豹。

640?wx_fmt=png&wxfrom=5&wx_lazy=1&retryload=1
还是一张普通的猫咪图,还能被转换成不同品种的狗。

640?wx_fmt=png&wxfrom=5&wx_lazy=1
这种实时转换技术不仅能用于图像,还能用于视频——


这是英伟达最新创造的一项技术。在最近发布的论文Multimodal Unsupervised Image-to-Image Translation中,研究人员提出了一种多模态无监督的图像到图像(image to image)转换框架。

这个框架的神奇之处在于,一张猫的图像可以同时转换成多种动物,能够进行一对多的图像转换,打破了原来一对一转换的限制。

640?wx_fmt=png “狗生猫,猫生万物”

640?wx_fmt=png 冬夏场景转换

此外,这个框架还支持用户通过提供示例样式的图像控制转换输出的风格。
640?wx_fmt=png
这是一项有趣的技术,不仅能够帮助游戏开发者和电影制作者减少工作量和花费,还能让自动驾驶领域更快、更容易地产生多样化的训练数据。

640?wx_fmt=png 道路的冬夏转换

论文介绍

在论文Multimodal Unsupervised Image-to-Image Translation中,奈尔大学的Xun Huang、Serge Belongie联合英伟达的Ming-Yu Liu与Jan Kautz提出了一种多模态无监督的图像到图像转换问题的标准框架。

研究人员首先假设图像的潜在空间能够分解为内容空间和样式空间,之后再进一步假设,不同领域的图像内容空间相同,但样式空间不同。

640?wx_fmt=png

为了将一张图像转换为指定领域的图像,研究人员在目标样式空间中将图像的内容代码和随机的样式代码重新组合。这样,内容代码编码的信息在转换过程中将被保留,而样式代码代表了与输入图像无关的剩余的变体。

640?wx_fmt=png

通过抽取不同风格的代码,这个模型可以输出风格多样且多模态的图像。

实验表明,这个模型在建立多模态输出分布时非常高效,并且和目前最先进的方法相比图像质量更高。

640?wx_fmt=png 与现有的样式转换模型的对比

这并不是英伟达在图像转换领域的首次探索,这篇论文是在去年英伟达的NIPS论文Unsupervised Image-to-Image Translation Networks中提出的模型基础上改进的。

相关资料

论文地址:

https://arxiv.org/abs/1804.04732

代码和预训练模型获取地址:

https://github.com/nvlabs/MUNIt

作者系网易新闻·网易号“各有态度”签约作者


诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



阅读更多
上一篇为AI芯片铺路?原三星半导体周军加盟Rokid
下一篇癌细胞检测,只要0.0758秒 | 谷歌AR+AI显微镜问世
想对作者说点什么? 我来说一句

kaggle猫狗大战数据集

2018年01月28日 49B 下载

猫狗分类器模型

2017年12月02日 106.49MB 下载

tensorflow实现猫狗识别

2017年10月10日 9KB 下载

没有更多推荐了,返回首页

关闭
关闭