【论文分享】RealFusion 360° Reconstruction of Any Object from a Single Image|牛津大学

论文地址:RealFusion

我们先来看一看这篇论文的实现结果,我们看到最左侧一列是给定的单张输入图像,右边第一列是对输入图像的视角进行重建,后面是其他视角。 可以仅凭一张输入视图,重建出物体的360°任意视角。

实验结果

 

Background  任意物体单视角3D重建 

  • 单视角所含信息有限
  • 需要语义信息和场景信息等 

从任意物体的单个视角恢复出它的3D模型是一个复杂而困难的问题,因为对于三维重建任务来说,一张图片包含的信息十分有限,只有物体的一个视角。但是,如果给我们这样一张小猫雕塑的图片,我们应该很容易想象出这个物体的3D结构。因此我们希望模型也能够根据一些信息“想象出”物体的背面,理想状态下。 

小猫雕塑

Model: RealFusion(NeRF + Stable Diffusion)

模型

给定一张输入图像,选择一个相机视角,用神经辐射场(NeRF)来表示场景,然后同时完成两个目标:

1. 已知视角-重建 (橙色)

首先对于已知视角,也就是输入图像的视角进行重建,计算出渲染图像与原图像之间的重建损失,并进行最小化;

2. 未知视角-合成 (蓝色)

第二个是未知视角,我们以物体为中心的一个半球上随机采样一些视角进行渲染,计算出渲染图像与输入图像的似然,并进行最大化来使其他视角的图像看起来更为真实。

Stable Diffusion 扩散模型

对于未知视角部分,由于我们缺乏对物体背面的信息,我们需要借助这种生成式的工具来恢复物体信息,我们使用最近被广泛使用的扩散模型(diffusion model):

扩散模型:给定一张图像,逐步添加高斯噪声得到一张全噪声图像又逆向逐步去噪合成原图像,模型即训练一个噪声估计网络从一个随机噪声图像迭代生成图像。

论文中使用 Stable Diffusion(以文本为条件的扩散模型):

  1. Pixel Space x -----> Latent Space z,使用AutoEncoder将图像编码至低维latent空间去掉高频不易察觉的细节使计算更为高效
  2. 在latent space做前向扩散和逆向去噪过程从z得到zTU-Net学习εθ(zt, t),恢复至z’,再通过Decoder得到x’
  3. 条件机制网络扩展为εθ(zt, t, y),y可以是文本语义图模糊图像等任意可编码的控制条件使用交叉注意力机制对y进行预处理τθ( y);εθτθ共同优化

同时,论文参考了DreamFusion这篇论文,DreamFusion发现denoising过程可以作为先验来优化NeRF等3D表示,去噪的结果可以在NeRF渲染过程中反向传播,来更新NeRF中MLP的参数,如下图所示。

DreamFusion

Text Prompt 文本提示 

Stable Diffusion是可以已文本为条件生成图像的,因此我们向 Stable Diffusion中输入文本提示,比如 ”An image of a fish.”

可以看到使用这种文本提示的效果,从输入视图视角来看比较接近输入对象,但其他视角并没有特别像,而是一条普通的鱼或者狗。

Textual Inversion 文本反转(粉色)

为了使得多视角一致,且其他各视角图像均符合输入对象的特征,引入 text inversion。根据输入图像合成文本提示 e ,比如“an image of a 〈e〉” 。在扩散模型的text encoder中加入一个text embedding来匹配输入对象。

视角相关的文本提示:

如果摄像头放置在高于60°的高处,文本提示会加入后缀—— "俯视图"

如果摄像机位于低于 0°的仰角处,则文本提示为 "底视图"

如果摄像机的方位角为±30°、±(30°-90°)或±(90°-180°),则会分别加入后缀 "正视图"、"侧视图 "或 "背视图"。

使用大量图像增强来训练文本提示 e :

图像增强示意图
图像增强伪代码

 

我们看到使用这种文本反转的方法后,各视角图像特征明显更加靠近原图像特征。(第一行无文本反转,第二行加上文本反转) 


Experiment 

[59] Yufei Ye, Shubham Tulsiani, and Abhinav Gupta. Shelfsupervised mesh prediction in the wild. In Computer Vision and Pattern Recognition (CVPR), 2021.


Limitations 局限性

  • 优化过程基于每张输入图像,速度太慢,难以用于大型数据集
  • 有些例子中难以重建物体的形状
  • 有些例子中的物体会出现两张脸 (如下图的皮卡丘)


Summary 总结 

  • 提出一种单张图像进行任意物体三维重建的新方法——RealFusion
  • 使用文本来辅助生成图像
  • 扩散模型可以与NeRF相结合 

对这篇论文做一个总结,本文通过单张输入图像,生成一些文本提示来使扩散模型输出其他视角的图像,把这些图像输入到NeRF中进行三维重建,不过在实验中用InstantNGP来代替NeRF,这样可以提高训练速度;有一篇论文也是类似的思想,是谷歌提出的,同样也是单张输入图像,通过扩散模型得到其他视角的图像输入到NeRF中,但这篇是显式地生成图像,而本文RealFusion是使用文本提示和图像增强隐式地表示其他视角图像。 虽然目前从实验结果来看这种方法还不算稳定,但这也是我们未来进一步探索的目标。 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

juvenility

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值