68、4K-NeRF:高分辨率重建

C--G

已于 2022-12-18 17:48:06 修改

阅读量1.9k

点赞数

分类专栏： # 3D重建文章标签：人工智能计算机视觉

于 2022-12-17 10:50:17 首次发布

本文链接：https://blog.csdn.net/weixin_50973728/article/details/128350318

版权

3D重建专栏收录该内容

113 篇文章

订阅专栏

4K-NeRF提出了一种新的方法，通过视点一致性编码器和解码器来增强基于NeRF的模型对高频细节的恢复能力。方法利用视点一致性编码器捕获几何信息，并通过视点一致性解码器进行高保真细节重建。采用基于补丁的射线采样策略训练，结合对抗损失和感知损失以提升图像质量。实验在LLFF数据集上进行，展示了在高分辨率图像合成方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

官网：https://github.com/frozoul/4K-NeRF

基于nerf方法的渲染过程通常依赖于一种像素方式，在这种方式中，射线(或像素)在训练和推断阶段都是独立处理的，这限制了其描述微妙细节的表示能力，特别是当提升到极高分辨率时。为了更好地探索射线相关性来解决这个问题，以增强受益于几何感知局部上下文的高频细节。使用view-consistent编码器在低分辨率空间中有效地建模几何信息，并通过view-consistent解码器恢复精细细节，条件是编码器估计的射线特征和深度。

基于补丁抽样的联合训练将基于感知的正则化监督纳入到像素损失之外
在这里插入图片描述

方法

在这里插入图片描述
该方法旨在通过融合观察中学习到的3d感知局部特征来增强基于nerf的模型对高频细节恢复的表征能力。

View Consistent Encoder

编码器基于DVGO实现（使用体素网格搭建显示隐式结合的NeRF，其包括一个密度体素网格、一个特征体素网格），如下图。
在这里插入图片描述
基本表达公式如下：

$N_c$ 为通道数（密度网格中 $N_c$ =1），对于每个采样点，密度由配备softplus激活的三线性插值估计，公式为：σ = δ (interp (x, Vd))

颜色由特征网格的输出经过一个小MLP后得到
在这里插入图片描述
$g_θ(·)$ 提取颜色信息的体特征， $f_{RGB}$ 表示从特征到RGB图像的映射(具有一个或多个层)

论文中使用了DVGO的g(θ; x, d)部分作为VC-Encoder输出g = g(θ; x, d)，其编码了视角方向为d的3D点X的体特征，然后，累加沿着射线r的采样点的特征来得到每条射线(或像素)的描述子
在这里插入图片描述
假设空间维度为H ’ ×W '，形成的特征图 $F_{en}∈R^{C ' ×H ' ×W '}$ 输入VC-Decoder进行精细细节的高保真重构。

View Consistent Decoder

为了更好使用vc -编码器中嵌入的几何属性，引入了深度图 $\in R^{H' \times W'}$
在这里插入图片描述
$t_i$ 表示采样点 i 到相机中心的距离，估计的深度图为理解场景的3D结构提供了有力的指导

VC-Decoder使用特征图 $F_{en} \in R^{C' \times H' \times W'}$ 和深度图 $\in R^{H' \times W'}$ ，经过特制卷积上采样网络 $\psi:(F_{en},M) \to P$ （ $\in R^{3 \times H \times W}，H=sH'，W=sW'$ 是s表示上采样尺度）得到更高空间维度输出