77、TensoRF: Tensorial Radiance Fields

最新推荐文章于 2024-10-17 21:39:20 发布

C--G

最新推荐文章于 2024-10-17 21:39:20 发布

阅读量1.8k

点赞数 3

分类专栏： # 3D重建文章标签：人工智能算法

本文链接：https://blog.csdn.net/weixin_50973728/article/details/128762636

版权

3D重建专栏收录该内容

113 篇文章

订阅专栏

简介

主页：https://apchenstu.github.io/TensoRF/
总体而言，该文章主要内容于DVGO类似

将场景的亮度场建模为4D张量，它表示一个具有每体素多通道特征的3D体素网格，中心思想是将4D场景张量分解为多个紧凑低秩张量分量，应用传统的CANDECOMP/PARAFAC (CP)分解-将张量分解为具有紧凑向量的一级分量。

此外，引入了一种新的向量矩阵(VM)分解，它放松了张量的两个模态的低秩约束，并将张量分解为紧凑的向量和矩阵因子。

CP和VM分解模型可以显著降低内存占用

与NeRF相比，具有CP分解的TensoRF实现了快速重建(< 30分钟)，具有更好的渲染质量，甚至更小的模型大小(< 4 MB)

带有VM分解的TensoRF进一步提高了渲染质量，并优于之前最先进的方法，同时减少了重建时间(< 10分钟)并保留了紧凑的模型大小(< 75 MB)
在这里插入图片描述
左图:将场景建模为张量辐射场，使用一组向量(v)和矩阵(M)描述场景外观和沿其相应轴的几何形状。这些向量/矩阵因子用于计算体积密度 σ 和视景相关的RGB颜色，通过向量矩阵外积进行真实的体绘制。右:与之前的方法和并发方法相比，TensoRF模型可以实现最好的渲染质量，并且是唯一可以同时实现快速重建和高紧凑性的方法

张量分解

在这里插入图片描述
张量分解。左:CP分解，将张量分解为向量外积的和。右:向量矩阵分解，它将张量分解为向量矩阵外积的和。

受CP和块项分解的启发，本文建议将辐射场的全张量分解为每个张量分量的多个向量和矩阵因子，考虑向量-矩阵外积之和，虽然这与CP中纯基于矢量的分解相比增加了模型规模，但使每个分量都能表达更高阶的更复杂张量数据，从而显著减少了亮度场建模所需的分量数量。因此，提出了一种新的矢量矩阵(VM)分解技术，有效地减少了相同表达容量所需的分量数量，从而实现更快的重建和更好的渲染

CP decomposition

三维张量 $T∈R^{I×J×K}$ , CP分解将其分解为向量外积的和
在这里插入图片描述
其中 $v^1_r ◦ v^2_r ◦ v^3_r$ 对应一个秩一张量分量， $v^1_r∈R^I, v^2_r∈R^J, v^3_r∈R^K$ 是第 r 个分量的三种模态的因式分解向量。

每个张量元素 $T_{ i j k }$ 是标量积的和
在这里插入图片描述
i j k表示三种模态的指标

由于CP分解的紧凑性太高，需要很多组件来建模复杂场景，导致辐射场重构的计算成本很高

Vector-Matrix (VM) decomposition

VM分解将一个张量分解为多个向量和矩阵
在这里插入图片描述

$M^{2,3}_r ∈ R^{J×K} , M^{1,3}_r ∈ R^{I×K} , M^{1,2}_r ∈ R^{I×J}$ ，为三种模态中的两种(用上标表示)的矩阵因子。对于每个组件，将其两个模态秩放宽为任意大，而将第三个模态限制为秩1

三个张量模式对应于XYZ轴，因此直接用XYZ表示模式，在三维场景表示的背景下，对大多数场景考虑 $R_1 = R_2 = R_3 = R$ ，这反映了一个场景在它的三个轴上分布和表现一样复杂

在这里插入图片描述
将三种类型的分量张量表示为 $A_r^X = v^X_r ◦ M^{Y Z}_r, A_r^Y = v^Y_r◦M^{XZ}_r, A_r^Z = v^Z_r◦M^{XY}_r$ ，A的上标XYZ表示不同类型的组件

$A_{r,ijk}^X = v^X_{r,i} ◦ M^{Y Z}_{r,jk}, A_{r,ijk}^Y = v^Y_{r,j}◦M^{XZ}_{r,ik}, A_{r,ijk}^Z = v^Z_{r,k}◦M^{XY}_{r,ij}$

实现流程

在这里插入图片描述
将亮度场建模为张量，使用一组向量(v)和矩阵(M)，它们沿着相应的(XYZ)轴描述场景，并用于计算可微射线行进中的体积密度σ和与视图相关的颜色c。对于每个阴影位置x = (x, y, z)，使用向量/矩阵因子中的线性/双线性采样值来有效地计算张量分量的相应三线性插值值(A(x))。将密度分量值( $A_σ(x)$ )求和，直接得到体积密度(σ)。外观值( $A_c(x)$ )被连接成一个向量( $A_c^m(x)]_m$ )，然后乘以外观矩阵 B，并发送到解码函数 S 进行RGB颜色©回归

划分为几何网格 $G_σ$ 和外观网格 $G_c$ ，分别对体积密度 σ 和与视图相关的颜色 c 进行建模

在这里插入图片描述
$G_σ(x)， G_c(x)$ 表示来自位置 x 的两个网格的三线性插值特征。将 $G_σ$ 和 $G_c$ 建模为因式张量

$G_σ∈R^{I×J×K}$ 是3D张量， $G_c∈R^{I×J×K×P}$ 是4D张量。其中 I、J、K 分别对应特征网格沿X、Y、Z轴的分辨率，P(27) 为外观特征通道数

几何网格

在这里插入图片描述

外观网格

外观张量 $G_c$ 有一个额外的模式对应于特征通道维度。与XYZ模式相比，此模式通常具有较低的维数，从而导致较低的秩。在矩阵分解中，没有将该模态与其他模态组合在一起，而是在分解时只使用向量 $b_r$ 表示该模态
在这里插入图片描述
$3R_c$ 向量 $b_r$ 来匹配组件的总数

采用 $R_σ≪I, J, K, R_c≪I, J, K$ ，从而形成高度紧凑的表示，可以对高分辨率的密集网格进行编码

$v^X_{σ,r}, M^{Y Z}_{σ,r} , v^X_{c,r}, M^{Y Z}_{c,r}$ ，描述场景几何和外观沿其相应轴的空间分布。外观特征模态向量 $b_r$ 表示全局外观相关性。通过将所有 $b_r$ 作为列叠加在一起，得到一个 $P × 3R_c$ 矩阵B;这个矩阵B也可以被视为一个全局外观字典，它抽象了整个场景的外观共性

采样

通过VM因式分解，可以直接有效地求出单个体素在指数 ijk 处的密度值 $G_{σ,ijk}$
在这里插入图片描述
计算每个 $A^m_{σ,r,ijk}$ 只需要从对应的向量和矩阵因子中索引和相乘两个值

对于外观网格 $G_c$ ，需要计算一个完整的 P 通道特征向量，着色函数 S需要它作为输入
在这里插入图片描述
在这里，对于特征模式没有额外的索引，因为计算了一个完整的向量。通过重新排序计算进一步简化了公式10。为此，将 $⊕[A^m_{c,ijk}]_{m,r}$ 表示为集合 m = X, Y, Z和 r = 1，… $R_c$ 时所有 $A^m_{c,r,ijk}$ 值的向量，是 $3R_c$ 维的向量;在实践中，⊕ 也可以被认为是将所有标量值(1通道向量)连接成 $3R_c$ 通道向量的连接运算符。使用矩阵B来堆叠所有 $b_r$
在这里插入图片描述