【论文笔记】LI-GS: Gaussian Splatting with LiDAR Incorporated for Accurate Large-Scale Reconstruction_combining gaussian splatting with precomputed atmo-CSDN博客

本文链接：https://blog.csdn.net/weixin_45657478/article/details/145834620

原文链接：https://ieeexplore.ieee.org/document/10816486

简介：本文介绍LI-GS，一种引入激光雷达和高斯溅射的大规模场景重建系统。LI-GS使用2D高斯面元作为地图表达，以增强表面对齐。此外，还提出新的建模方法，将激光雷达点云转化为平面约束的多模态高斯混合模型（GMM）。GMM在初始化和优化阶段被使用，以保证充足且连续的监督，并减小过拟合风险。GMM还被用于网格面提取，以消除伪影并提高整体几何质量。

在这里插入图片描述

引言部分提到，3DGS在精确几何重建上存在一些问题，尤其是对稀疏视图、无界和大尺度场景。原因有三：（1）椭球形状难以拟合薄物体表面；（2）缺少精确的深度信息使得高斯沿相机主轴方向的位置不准确；（3）稀疏监督视图使模型倾向于过拟合到单一视图，且缺少多视图几何一致性。

0. 准备知识

2DGS使用扁平的高斯面元建模场景，以更好地与薄表面对齐。面元的基本属性包括中心点 $\mathbf p_i\in\mathbb R^3$ ，半径 $r_{u_i}>r_{v_i}\in\mathbb R^+$ ，两个相应的正交向量 $\mathbf t_{u_i},\mathbf t_{v_i}\in\mathbb R^3$ ，法向量 $\mathbf n_i=\mathbf t_{u_i}\times \mathbf t_{v_i}$ ，以及不透明度 $o_i\in[0,1]$ 和视线相关的外观 $\mathbf c\in\mathbb R^3$ （由球面谐波参数化）。高斯面元定义了局部的2D切空间，该空间内的点 $\mathbf u=[u,v]$ 可通过 $\mathbf p(\mathbf u)=\mathbf p_i+r_{u_i}\mathbf t_{u_i}u+r_{v_i}\mathbf t_{v_i}v$ 转化到世界坐标系 $p(\mathbf u)\in\mathbb R^3$ 。高斯值 $f(\mathbf u)=\exp(-(u^2+v^2)/2)$ 。

为了渲染图像，2DGS首先将面元按前后顺序排列。对图像平面上的点 $x\in\mathbb R^2$ ，其外观 $c (x)$ 可按下式计算：
$\mathbf c(x)=\sum_{i=1}^N\mathbf c_io_if(\mathbf u_i(x))\prod_{j=1}^{i-1}(1-o_jf(\mathbf u_j(x)))$

其中 $N$ 为可见面元的数量， $\mathbf u_i(x)$ 为2D到2D的映射（点从图像平面到切空间的投影，可通过找三个非平行平面的交点得到）。

1. 预处理

首先使用SLICT（一种sota的激光雷达-惯性连续时间SLAM系统）估计激光雷达扫描的初始姿态。然后，使用M-检测器移除动态物体，并使用HBA增强全局点云的精度。对于图像，则使用ER-Mapping估计初始图像姿态，并用Colmap-PCD细化（生成有色点云）。

2. 初始化

在这里插入图片描述

本文从大型有色点云生成多模态高斯混合模型（GMM），并使用空间哈希高效保存GMM，如图所示。

首先，遍历图像并投影全局点云，生成有色点云帧序列。对于第一帧，进行体素化，并在体素内使用RANSAC以提取平面。位于同一平面上的点记为 $\mathcal P=\{\mathbf z_i|\mathbf z_i=[\mathbf p_i,g_i]^T,\mathbf p_i\in\mathbb R^3,g_i\in[0,1]\}$ ，其中 $\mathbf p_i$ 为点在世界坐标系下的位置， $g_i$ 为由RGB计算的灰度值。这些点可由均值 $\bar {\mathbf p}\in\mathbb R^3$ ，协方差的特征值 $\alpha_0\leq\alpha_1\leq\alpha_2$ 及归一化特征向量 $\mathbf v_0,\mathbf v_1,\mathbf v_2$ 表达。

局部4D GMM由平面坐标系下的点云 $\mathcal P'=\{\mathbf z'_i|\mathbf z'_i=[u_i,v_i,0,g_i]^T\}$ 建模，其中 $\mathbf p_i=\bar {\mathbf p}+u_i\mathbf v_2+v_i\mathbf v_1+w_i\mathbf v_0$ 。平面上点的概率密度 $\mathbf z'=[u,v,0,g]^T$ 可由下式计算：
$p_L(\mathbf z')=\sum_{l\in\mathcal L}\pi'_l\mathcal N(\mathbf z'|\mu'_l,\Sigma'_l)$

其中 $\pi'_l,\mu'_l$ 和 $\Sigma'_l\in\mathbb S^{4\times4}$ 分别为GMM分量 $l$ 的权重、均值和协方差。 $\mathcal L$ 为相应的索引集合，且有 $\sum_{j\in\mathcal L}\pi'_l=1$ 。分量可通过下式转换到世界坐标系下：
$\pi_l=\pi'_l,\mu_l=[\bar {\mathbf p}^T,0]^T+\mathbf H\mu'_l,\Sigma_l=\mathbf H\Sigma'_l\mathbf H^T,\\ \mathbf H=\begin{bmatrix}\mathbf R&\mathbf 0\\\mathbf 0^T&1\end{bmatrix},\mathbf R=[\mathbf v_2,\mathbf v_1,\mathbf v_0]\in SO(3)$

其中 $\pi_l,\mu_l$ 和 $\Sigma_l\in\mathbb S^{4\times4}$ 为世界坐标系下的权重，均值和协方差。4D GMM考虑了颜色维度的点分布，从而可精确表达表面纹理。此外，平面约束能有效移除噪声。高斯成分的数量 $|\mathcal L|$ 可通过场景复杂度调整（通过最小化信息理论目标函数确定，该目标函数可由高斯均值移位近似）。

接收后续有色点云帧 $\mathcal F$ 时，系统在新空间内识别有效的点。通过查询空间哈希，将 $\mathcal F$ 中的点被分为两部分：在现有体素中的点 $\mathcal F^o$ 和新体素中的点 $\mathcal F^n$ （ $\mathcal F=\mathcal F^o\cup\mathcal F^n$ ）。现有体素中的有效点 $\mathcal F^l$ 通过计算对数似然确定：
$\mathcal F^l=\{\mathbf z_j\in \mathcal F^o|\mathbf z_j=[\mathbf p_j,g_j]^T,L(\mathbf p_j)<\rho\}\\ L(\mathbf p_j)=\ln(p_K(\mathbf p_j))=\ln(\sum_{k\in\mathcal K}\pi_k\mathcal N(\mathbf p_j|\mu_k^\mathbf p,\Sigma_k^{\mathbf p\mathbf p}))\\ \mu_k=[\mu_k^\mathbf p,\mu_k^g]^T,\Sigma_k=\begin{bmatrix}\Sigma_k^{\mathbf p\mathbf p}&\Sigma_k^{\mathbf pg}\\\Sigma_k^{g\mathbf p}&\Sigma_k^{gg}\end{bmatrix}$

其中 $\mathcal K$ 为全局GMM中的索引集合， $\rho$ 为预定义阈值， $L(\mathbf p_j)$ 为 $\mathbf p_j$ 的对数似然。灰度分布与空间有效性无关，故 $L(\mathbf p_j)$ 是由边缘密度 $p_K(\mathbf p_j)$ 而非 $p_K(\mathbf z_j)$ 计算的。因此，当前帧内的有效点 $\mathcal F^e$ 由 $\mathcal F^e=\mathcal F^n\cup\mathcal F^l$ 得到。遍历所有图像后，全局GMM被转化为初始高斯面元：
$\mathbf p_k=\mu_k^\mathbf p,\mathbf n_k=\mathbf w_{0_k},\mathbf t_{u_k}=\mathbf w_{2_k},\mathbf t_{v_k}=\mathbf w_{1_k},r_{u_k}=\sqrt{\gamma_{2_k}},r_{v_k}=\sqrt{\gamma_{1_k}},o_k=0.6+0.4\pi_k$

其中 $\gamma_{0_k}\leq\gamma_{1_k}\leq\gamma_{2_k}$ 和 $\mathbf w_{0_k},\mathbf w_{1_k},\mathbf w_{2_k}$ 为 $\Sigma_k^{\mathbf p\mathbf p}$ 的特征值和相应的特征向量。

3. 优化

尽管在初始化时引入了激光雷达，2DGS和3DGS在优化时若仅使用光度损失，会导致有噪声的重建。本文提出全面归一化方法和几何感知的密度控制方法。

3.1 归一化

总损失包括五个分量——GMM损失，光度损失，天空损失，深度图像损失和法线图像损失：
$L=\lambda_{GMM}L_{GMM}+L_p+L_{sky}+\lambda_dL_d+\lambda_nL_n$

GMM损失。多模态GMM可优化3D空间中高斯面元的位置和形状。 $\mathbf p_g,\mathbf n_g,r_{u_g}\geq r_{v_g},\mathbf t_{u_g},\mathbf t_{v_g}$ 分别表示高斯面元 $g$ 的位置、法向量、半径和主向量。选择 $K$ 个最近的GMM分量，其中第 $g_k$ 个分量的均值和法向量分别为 $\mu_{g_k}$ 和 $\nu_{g_k}$ 。

首先，最小化 $\mathbf p_g$ 到（由 $K$ 个GMM分量确定的）表面的距离 $L_{dis}$ ，以保证高斯面元与局部结构对齐：
$L_{dis}=\frac1G\sum_{g=1}^Gd_g(\mathbf p_g)$

其中 $G$ 为当前视角下可视高斯面元的数量， $d_g(\mathbf p)$ 为加权距离：
$d_g(\mathbf p)=\sum_{k=1}^K\omega_{g_k}\|(\mathbf p-\mu_{g_k})^T\nu_{g_k}\|_1$

其中权重 $\omega_{g_k}=\exp(-\|\mathbf p_g-\mu_{g_k}\|_2^2/2\sigma^2)$ 强调了近处GMM分量的贡献。

这里的 $\|(\mathbf p-\mu_{g_k})^T\nu_{g_k}\|_1$ 即点到高斯面元中心的距离在法线方向投影的长度，可近似为点到面的距离。

在这里插入图片描述

为保证高斯面元的几何精度，引入形状控制点 $\mathbf c_{u_g}=\mathbf p_g+\alpha r_{u_g}\mathbf t_{u_g}$ 和 $\mathbf c_{v_g}=\mathbf p_g+\alpha r_{v_g}\mathbf t_{v_g}$ （如上图所示），且最小化下列损失：
$L_{control}=\frac1G\sum_{g=1}^Gl_g,\;\;l_g=\begin{cases}d_g(\mathbf c_{u_g})+d_g(\mathbf c_{v_g})&若r_{v_g}\geq\phi\\d_g(\mathbf c_{u_g})&若r_{u_g}\geq\phi,r_{v_g}<\phi\\0&否则\end{cases}$

其中阈值 $\phi$ 选择性地监督大型高斯面元。此外，还使用加权法向量监督高斯面元的法向量：
$L_{normal}=\frac1G\sum_{g=1}^G\|\mathbf n_g-\bar {\mathbf n}_g\|_1+\|1-\mathbf n_g^T\bar {\mathbf n}_g\|_1,\;\;\bar {\mathbf n}_g=\frac{\sum_{k=1}^K\omega_{g_k}\nu_{g_k}}{\|\sum_{k=1}^K\omega_{g_k}\nu_{g_k}\|_2}$

这里的损失分两项，前者使所有面元的法向量接近，后者使所有面元的法向量趋于单位向量。

最后， $L_{GMM}=L_{dis}+L_{control}+L_{normal}$ 。

光度损失。渲染的图像为 $\tilde {\mathbf I}$ ，真实图像为 $\mathbf I$ ，则
$L_p=0.8L_1(\tilde {\mathbf I},\mathbf I)+0.2L_{D-SSIM}(\tilde {\mathbf I},\mathbf I)$

天空损失。在室外场景中，该损失用于减少天空区域的伪影。首先使用语义分割网络生成天空掩膜 $\mathbf M$ （0表示天空区域），然后按下式计算损失：
$L_{sky}=(1-\mathbf M)L_1(\tilde {\mathbf S})$

其中 $\tilde {\mathbf S}$ 为渲染的剪影图像。

深度和法线图像损失。深度图像 $\hat {\mathbf D}$ 和法线图像 $\hat {\mathbf N}$ 可由激光雷达点云得到，用于对齐高斯面元和全局结构：
$L_d=L_1(\tilde {\mathbf D},\hat {\mathbf D}),L_n=1-\tilde {\mathbf N}\cdot\hat {\mathbf N}$

其中 $\tilde {\mathbf D}$ 和 $\tilde {\mathbf N}$ 分别表示渲染的深度和法线图像。

3.2 几何感知的密度控制

本文的方法在优化阶段动态控制高斯的数量和密度。为减小冗余并根据几何结构提高高斯分布，为生长和剪枝机制引入加权距离 $d_g(\mathbf p_g)$ ，以增强基于梯度的密度控制。生长准则为：
$\epsilon_g^{growth}=(1-\omega_{growth})\nabla_g+\omega_{growth}\omega_{scale}\exp(-\frac{d_g(\mathbf p_g)^2}{2\tau^2})$

其中 $\nabla_g$ 为平均的位置梯度， $\omega_{scale}$ 用于确保（两项）数量级相似。当 $\epsilon_g^{growth}$ 超过预定义的阈值时，会添加一个新的高斯面元。远离表面的高斯面元更可能被剪枝，剪枝准则为：
$\epsilon_g^{pruning}=o_g-\omega_{pruning}(1-\exp(-\frac{d_g(\mathbf p_g)^2}{2\tau^2}))$