【论文笔记】Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglemen

Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement
原文链接:https://arxiv.org/abs/2407.13155

简介:通过分析现有方法的速度和存储消耗,本文发现同时实现高精度和高速度的挑战来自几何和语义的强耦合。本文提出混合BEV-体素表达的几何-语义双分支网络(GSDBN)(模型上解耦),其中BEV分支包括BEV时间融合模块和UNet解码器,以提取密集语义特征;体素分支则使用大核重参数化3D卷积细化稀疏3D体素并减小计算。此外,还提出BEV-体素提升模块,将BEV特征投影到体素空间进行融合。本文还提出**几何-语义解耦学习(GSDL)**策略(训练上解耦),初始使用真实深度学习带精确几何的语义,后逐渐融入预测深度,使模型预测几何。本文的模型为GSD-Occ,能达到sota性能和实时速度。

1. 整体结构

几何-语义解耦的占用预测器(GSD-Occ)如图所示,包括图像编码器、2D到3D视图变换、几何-语义双分支网络、几何-语义解耦学习策略。
在这里插入图片描述
图像编码器:给定第 t t t帧的环视图像 I t = { I i , t ∈ R H × W × 3 } i = 1 N c I_t=\{I_{i,t}\in\mathbb R^{H\times W\times 3}\}_{i=1}^{N_c} It={ Ii,tRH×W×3}i=1Nc,使用预训练的主干提取图像特征 F = { F i ∈ R C F × H F × W F } i = 1 N c F=\{F_i\in\mathbb R^{C_F\times H_F\times W_F}\}_{i=1}^{N_c} F={ FiRCF×HF×WF}i=1Nc N c N_c Nc为视图数量。

2D到3D视图变换:使用带深度监督的显式视图变换方法,将2D图像特征 F F F转化为体素表达。首先将 F F F送入深度网络预测深度分布 D = { D i ∈ R D b i n × H F × W F } D=\{D_i\in\mathbb R^{D_{bin}\times H_F\times W_F}\} D={ DiRDbin×HF×WF},其中 D b i n D_{bin} Dbin为深度区间数。伪点云特征 P ∈ R N c D b i n H F W F × C F P\in\mathbb R^{N_cD_{bin}H_FW_F\times C_F} PRNcDbinHFWF×CF可由外积 F ⊗ D F\otimes D FD得到。最后使用体素池化得到体素特征 V ∈ R C F × X 2 × Y 2 × Z 2 V\in\mathbb R^{C_F\times \frac X2\times \frac Y2\times \frac Z2}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值