CVPR2021最佳论文：当GAN遇到3D场景，无需监督就学会“动态抠图”、360度展示对象...

最新推荐文章于 2023-07-29 17:01:13 发布

深度学习技术前沿

最新推荐文章于 2023-07-29 17:01:13 发布

阅读量240

点赞数 1

文章标签：计算机视觉机器学习人工智能深度学习神经网络

来源：量子位

GAN又又又有新玩法了！

人脸？NO，NO，NO~

这回，开发者利用「3D+GAN」生成了汽车大片，还是能360度展示、随手换背景那种。

只需无监督训练，模型就可以产出几百万张新车硬照！

不只是车，还有人脸、猫咪、建筑、家具等等……（好家伙，利好设计师~）

无论是换背景、改外观，还是在场景中添加、平移、旋转对象，或者改变视角，都能搞定。

这项研究摘得CVPR2021最佳论文奖，现已开源，研究团队来自马普所和图宾根大学。

在此前的研究中，深度生成模型虽然可以合成高分辨率的图像，但生成过程的可控性不足。

而对变化因素的研究大多局限于2D空间，很少考虑场景的组成。

研究人员在GAN中加入了3D场景，新模型能够生成更可控、质量更高的图像，并且模型参数量更少。

那么3D与GAN是如何结合起来的？

GAN+3D：合成可控

研究人员将神经渲染管道与场景表示结合，把场景表示为合成的生成性神经特征场，就得到了一个真实、高效的图像合成模型——GIRAFFE。

具体而言，首先要为场景和对象采样单独的潜在编码，为正则空间提供特征字段。

将3D点和观察方向映射到密度值和特征向量的函数，即为特征场。

接下来，为每个对象采样一个视角，生成器将对象和背景合成到一个场景中。

将生成器生成的图像与真实图像输入判别器，再利用对抗性损失进行无监督训练。

虽然训练集使用了原始、未定位的图像，但在测试时，包括相机和物体的视角，以及物体的形状、外观，都能够得到控制。

最后，利用2D神经渲染网络，对相机视角、体积渲染场景的特征图像进行采样，将其转换为最终的具有3×3卷积的RGB渲染图像。

△神经渲染网络

与其他模型对比

研究人员将GIRAFFE与基于2D的GAN进行了比较。

平移单个对象时，二者的效果对比情况：（右图为新模型）

相比之下，新模型还能够实现更复杂的操作，比如循环移动、改变背景、添加对象等。

此外，研究人员还分别使用64×64和256×256像素的图像，对不同模型进行了对比。

在固定背景的情况下旋转对象，新模型的效果比其他模型更优：

在定量分析中，新模型在不同像素下的FID分数都更低，说明生成效果更好：

（FID分数是通过生成图像与真实图像的“距离值”，得到的评估分数，数值越小越好。）

并且，新模型的参数量也更少：（单位：百万）

泛化能力如何？

此外，模型还能在训练数据之外进行泛化。

比如增加水平和深度平移范围：

合成比训练时更多对象的场景：（训练集图像中仅一辆汽车）

开发者表示，这项技术可以应用在动画和游戏制作中。3D动画师们离解放又近了一步~

GIRAFFE已经在GitHub上开源，感兴趣的小伙伴可戳文末链接了解~

相关链接：
[1]https://arxiv.org/abs/2011.12100
[2]https://autonomousvision.github.io/giraffe/
[3]https://m-niemeyer.github.io/project-pages/giraffe/index.html
[4]https://m-niemeyer.github.io/slides/#/
[5]https://github.com/autonomousvision/giraffe

重磅！DLer-CVPR2021论文分享交流群已成立！

大家好，这是CVPR2021论文分享群里，群里会第一时间发布CVPR2021的论文解读和交流分享会，主要设计方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

???? 长按识别，邀请您进群！

深度学习技术前沿

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CVPR2021最佳论文：当GAN遇到3D场景，无需监督就学会“动态抠图”、360度展示对象...

来源：量子位GAN又又又有新玩法了！人脸？NO，NO，NO~这回，开发者利用「3D+GAN」生成了汽车大片，还是能360度展示、随手换背景那种。只需无监督训练，模型就可以产出几百万张新车硬...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。