FB-OCC CVPR23 3D Occupancy Prediction 挑战赛冠军方案解读

论文链接:https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf?=&linkId=100000205404832
github地址:https://github.com/NVlabs/FB-BEV
请添加图片描述
一:模型机构设计:
1.基于3D检测方法(FB-BEV);
2.Forward Projection(参考LSS)+
Backward Projection(参考BEVFormer)
请添加图片描述
Forward Projection:
1)使用前向投影来生成3D体素表示
2)将 3D 体素表⽰压缩为扁平化的BEV特征图
3)最后将 3D 体素表⽰和优化的 BEV 表⽰的融合特征输⼊到后续任务头中

前向投影总结:相对原来的LSS是投影到BEV空间中,这里是投影到3D体素空间中

Backward Projection:

1)3D体素表⽰压缩为BEV表示,从⽽结合更强的语义
2)利⽤了投影阶段的深度分布,能够更精确地建模投影关系

后向投影总结:灵感来源于BEVFormer,
1.与使⽤随机初始化参数作为 BEV 查询的 BEVFormer 不同,采用1);
2.在推理阶段使用了深度分布,从而保证了更加精确的

最后获得3D体素表示和优化后的BEV表示后,
通过扩展BEV特征的过程将他们组合起来,
从而产生最终的3D体素表示
图一图二中展示了体素编码器和占用预测头

二:损失函数:
在这里插入图片描述
Lfl :距离感知焦距损失函数

Ldl:语义分割深度分析损失函数

Lgeo scal/Lsem scal:
来自MonoScene的亲和力损失函数

Lls:lovasz-softmax损失函数

Ld:深度监督损失

Ls :2D语义损失
请添加图片描述

三:扩大模型和预训练:

1)作者花了大段时间介绍大模型的过拟合的劣势还有计算复杂度的问题,综合评比下来,选用了1B参数的backbone,interimage-H;

2)此模型用于nuScenes中直接应用会有严重的过度拟合,利用比赛提供的public data做与训练

3)在Object365数据集上进行2D检测任务的与训练,用于增强模型的语义感知能力

4)为了增加深度感知,和减轻模型过度偏向深度信息的风险,导致语义丢失,在nuScenes数据集上进行深度估计的预训练,用来增强模型的几何感知能力

5)考虑到nuScenes数据集不提供2D图像语义标签,使用SAM模型生成

四:实验结果:

见图5请添加图片描述

字数限制,暂且分享这多么,欢迎相互沟通学习

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值