【论文分享】NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from 3D-aware Diffusion

juvenility

已于 2023-09-07 20:43:22 修改

阅读量440

点赞数 1

分类专栏：论文分享文章标签： 3d 计算机视觉人工智能神经网络 pytorch 图像处理 stable diffusion

于 2023-09-07 20:42:58 首次发布

本文链接：https://blog.csdn.net/weixin_44414476/article/details/132745045

版权

论文分享专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文地址：NerfDiff

Pipeline

Contributions 主要贡献：

开发了一个新的框架——NerfDiff，联合训练 NeRF 和 CDM，在测试时对 learned NeRF 进行finetune；
引入了一种高效的、以图像为条件的 NeRF 表示法，基于 camera-aligned triplanes
提出了一种3D-aware CDM，将体渲染纳入二维扩散模型，提高了新颖试图的泛化能力。

Training Phase

1. Single-image NeRF with Local Triplanes

回顾NeRF

NeRF简单来说就是训练了一个网络 $f_\theta:(x, d) \rightarrow(c, \sigma)$ ，其中 $x$ 表示点的三维位置， $d$ 表示光线方向，输出颜色值 $c$ 和密度值 $\sigma$ ，再通过体渲染获得图像。其中，为了使网络获得高频细节，提高渲染能力，对 $x$ 和 $d$ 分别使用了位置编码（Positional Encoding）。

本文对NeRF的优化

图像编码器使用U-Net结构，其输出层同时包含局部信息和全局信息；最后一层输出被重塑为三平面，三平面的空间分辨率与输入图像相同，特征维度设置为48。

将图像特征 W 表示为相机坐标系下的 triplane（三平面结构） { Wxy, Wxz, Wyz }

在三个平面内进行双线性插值，每个3D点都会得到一个唯一的特征向量：

$\xi_W(\boldsymbol{x})=W_{x y}\left(\tilde{\boldsymbol{x}}_{x y}\right)+W_{x z}\left(\tilde{\boldsymbol{x}}_{x z}\right)+W_{y z}\left(\tilde{\boldsymbol{x}}_{y z}\right)$

好处：

可以在xz, yz平面分配深度信息，不需要使用位置编码来表示空间信息
浅层MLP代替深层MLP，提高渲染效率

2. 3D-aware Conditional Diffusion Models

使用 NeRF 渲染出的 target-view 图像作为 CDM 的条件（而不是input-view）

渲染图像与噪声图像拼接

可以在 CDM U-Net和图像编码器 U-Net之间使用交叉注意力机制增强条件

3. Training Loss

Loss = Rendering Loss + Denoising Loss

两个加权系数lamda都为1。

这里解释一下为什么要联合使用NeRF + CDM

如果只使用NeRF，在只有一张输入图像的条件下，NeRF对图片中物体背面的信息是完全不可见的，因此渲染出的图像会出现模糊的结果；

如果只使用CDM，diffusion model生成每个视角的图像都是独立进行的，因此会出现多视角不一致的结果。

通过将二者结合，向NeRF引入生成式的扩散模型，在未知信息的部分通过生成可以很好的解决模糊的问题；同时CDM也需要NeRF的监督和引导来实现多视角一致的结果。