【论文笔记】Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglemen-CSDN博客

本文链接：https://blog.csdn.net/weixin_45657478/article/details/143835197

Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement
原文链接：https://arxiv.org/abs/2407.13155

简介：通过分析现有方法的速度和存储消耗，本文发现同时实现高精度和高速度的挑战来自几何和语义的强耦合。本文提出混合BEV-体素表达的几何-语义双分支网络（GSDBN）（模型上解耦），其中BEV分支包括BEV时间融合模块和UNet解码器，以提取密集语义特征；体素分支则使用大核重参数化3D卷积细化稀疏3D体素并减小计算。此外，还提出BEV-体素提升模块，将BEV特征投影到体素空间进行融合。本文还提出**几何-语义解耦学习（GSDL）**策略（训练上解耦），初始使用真实深度学习带精确几何的语义，后逐渐融入预测深度，使模型预测几何。本文的模型为GSD-Occ，能达到sota性能和实时速度。

1. 整体结构

几何-语义解耦的占用预测器（GSD-Occ）如图所示，包括图像编码器、2D到3D视图变换、几何-语义双分支网络、几何-语义解耦学习策略。
在这里插入图片描述
图像编码器：给定第 $t$ 帧的环视图像 $I_t=\{I_{i,t}\in\mathbb R^{H\times W\times 3}\}_{i=1}^{N_c}$ ，使用预训练的主干提取图像特征 $F=\{F_i\in\mathbb R^{C_F\times H_F\times W_F}\}_{i=1}^{N_c}$ 。 $N_c$ 为视图数量。

2D到3D视图变换：使用带深度监督的显式视图变换方法，将2D图像特征 $F$ 转化为体素表达。首先将 $F$ 送入深度网络预测深度分布 $D=\{D_i\in\mathbb R^{D_{bin}\times H_F\times W_F}\}$ ，其中 $D_{bin}$ 为深度区间数。伪点云特征 $P\in\mathbb R^{N_cD_{bin}H_FW_F\times C_F}$ 可由外积 $F\otimes D$ 得到。最后使用体素池化得到体素特征 $V\in\mathbb R^{C_F\times \frac X2\times \frac Y2\times \frac Z2}$