【论文分享】RealFusion 360° Reconstruction of Any Object from a Single Image｜牛津大学

最新推荐文章于 2024-09-14 16:43:45 发布

juvenility

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量283

点赞数 1

分类专栏：论文分享文章标签：人工智能 pytorch 计算机视觉 3d stable diffusion 图像处理 DreamFusion

本文链接：https://blog.csdn.net/weixin_44414476/article/details/132841336

版权

论文分享专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文地址：RealFusion

我们先来看一看这篇论文的实现结果，我们看到最左侧一列是给定的单张输入图像，右边第一列是对输入图像的视角进行重建，后面是其他视角。可以仅凭一张输入视图，重建出物体的360°任意视角。

Background 任意物体单视角3D重建

单视角所含信息有限
需要语义信息和场景信息等

从任意物体的单个视角恢复出它的3D模型是一个复杂而困难的问题，因为对于三维重建任务来说，一张图片包含的信息十分有限，只有物体的一个视角。但是，如果给我们这样一张小猫雕塑的图片，我们应该很容易想象出这个物体的3D结构。因此我们希望模型也能够根据一些信息“想象出”物体的背面，理想状态下。

Model: RealFusion（NeRF + Stable Diffusion）

给定一张输入图像，选择一个相机视角，用神经辐射场（NeRF）来表示场景，然后同时完成两个目标：

1. 已知视角-重建（橙色）

首先对于已知视角，也就是输入图像的视角进行重建，计算出渲染图像与原图像之间的重建损失，并进行最小化；

2. 未知视角-合成（蓝色）

第二个是未知视角，我们以物体为中心的一个半球上随机采样一些视角进行渲染，计算出渲染图像与输入图像的似然，并进行最大化来使其他视角的图像看起来更为真实。

Stable Diffusion 扩散模型

对于未知视角部分，由于我们缺乏对物体背面的信息，我们需要借助这种生成式的工具来恢复物体信息，我们使用最近被广泛使用的扩散模型（diffusion model）：

扩散模型：给定一张图像，逐步添加高斯噪声得到一张全噪声图像又逆向逐步去噪合成原图像，模型即训练一个噪声估计网络从一个随机噪声图像迭代生成图像。

论文中使用 Stable Diffusion（以文本为条件的扩散模型）：

Pixel Space x -----> Latent Space z，使用AutoEncoder将图像编码至低维latent空间，去掉高频、不易察觉的细节，使计算更为高效
在latent space做前向扩散和逆向去噪过程，从z得到zT，U-Net学习εθ(zt, t)，恢复至z’，再通过Decoder得到x’
条件机制：网络扩展为εθ(zt, t, y)，y可以是文本、语义图、模糊图像等任意可编码的控制条件；使用交叉注意力机制，对y进行预处理τθ( y)；对εθ和τθ共同优化

同时，论文参考了DreamFusion这篇论文，DreamFusion发现denoising过程可以作为先验来优化NeRF等3D表示，去噪的结果可以在NeRF渲染过程中反向传播，来更新NeRF中MLP的参数，如下图所示。

Text Prompt 文本提示

Stable Diffusion是可以已文本为条件生成图像的，因此我们向 Stable Diffusion中输入文本提示，比如 ”An image of a fish.”

可以看到使用这种文本提示的效果，从输入视图视角来看比较接近输入对象，但其他视角并没有特别像，而是一条普通的鱼或者狗。

Textual Inversion 文本反转（粉色）

为了使得多视角一致，且其他各视角图像均符合输入对象的特征，引入 text inversion。根据输入图像合成文本提示 e ，比如“an image of a 〈e〉” 。在扩散模型的text encoder中加入一个text embedding来匹配输入对象。

视角相关的文本提示：

如果摄像头放置在高于60°的高处，文本提示会加入后缀—— "俯视图"

如果摄像机位于低于 0°的仰角处，则文本提示为 "底视图"

如果摄像机的方位角为±30°、±(30°-90°)或±(90°-180°)，则会分别加入后缀 "正视图"、"侧视图 "或 "背视图"。

使用大量图像增强来训练文本提示 e ：

我们看到使用这种文本反转的方法后，各视角图像特征明显更加靠近原图像特征。（第一行无文本反转，第二行加上文本反转）

Experiment

[59] Yufei Ye, Shubham Tulsiani, and Abhinav Gupta. Shelfsupervised mesh prediction in the wild. In Computer Vision and Pattern Recognition (CVPR), 2021.

Limitations 局限性

优化过程基于每张输入图像，速度太慢，难以用于大型数据集
有些例子中难以重建物体的形状
有些例子中的物体会出现两张脸（如下图的皮卡丘）

Summary 总结

提出一种单张图像进行任意物体三维重建的新方法——RealFusion
使用文本来辅助生成图像
扩散模型可以与NeRF相结合

对这篇论文做一个总结，本文通过单张输入图像，生成一些文本提示来使扩散模型输出其他视角的图像，把这些图像输入到NeRF中进行三维重建，不过在实验中用InstantNGP来代替NeRF，这样可以提高训练速度；有一篇论文也是类似的思想，是谷歌提出的，同样也是单张输入图像，通过扩散模型得到其他视角的图像输入到NeRF中，但这篇是显式地生成图像，而本文RealFusion是使用文本提示和图像增强隐式地表示其他视角图像。虽然目前从实验结果来看这种方法还不算稳定，但这也是我们未来进一步探索的目标。