【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

最新推荐文章于 2024-09-06 19:46:13 发布

骆驼穿针眼

最新推荐文章于 2024-09-06 19:46:13 发布

阅读量807

点赞数 15

分类专栏：论文 Occupancy 文章标签：论文阅读 transformer 3d

本文链接：https://blog.csdn.net/weixin_55982578/article/details/139836094

版权

在这里插入图片描述
论文
 github

文章目录

- Q: 这篇论文试图解决什么问题？
- Q: 论文如何解决这个问题？

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的是自动驾驶领域中的3D占用预测问题。具体来说，它旨在通过构建一个紧凑的3D占用表示（Occupancy Representation），来提高对自动驾驶车辆周围环境的3D场景理解。这个问题的挑战在于：

现有的3D表示方法（如Tri-Perspective View, TPV）在压缩视图时会丢失3D几何信息。
原始的占用表示（Occupancy Representation, OCC）虽然能保留更多的几何信息，但是计算成本高，且由于其稀疏性，信息密度低，存在大量冗余。
现有的3D占用表示缺乏语义可区分性，这限制了网络成功识别稀有物体的能力，这部分是由于数据集中的类别不平衡问题导致的。

为了解决这些问题，论文提出了一种名为Compact Occupancy TRansformer（COTR）的方法，它包括一个几何感知的占用编码器和一个语义感知的组解码器，以重建一个紧凑的3D OCC表示。这种方法旨在保留丰富的几何信息，最小化计算成本，同时提高语义可区分性。通过实证实验，COTR在多个基线模型上显示出显著的性能提升，证明了该方法的优越性。

结构图
在这里插入图片描述

Q: 论文如何解决这个问题？

A: 论文提出了一种名为Compact Occupancy TRansformer（COTR）的方法来解决3D占用预测问题。COTR通过以下几个关键技术来解决现有方法的局限性：

几何感知的占用编码器（Geometry-aware Occupancy Encoder）：该编码器使用显式-隐式视图转换（Explicit-Implicit View Transformation）来生成一个紧凑的几何感知的3D占用特征。首先，通过显式视图转换（EVT）生成一个稀疏但高分辨率的3D占用特征，然后将其下采样到一个紧凑的占用表示，该表示的大小仅为原始大小的1/16，同时没有性能损失。接着，隐式视图转换（IVT）通过空间交叉注意力和自注意力进一步丰富这个紧凑的特征。
通过特征提取image Feature 生成 F ，然后跟深度分布进行点乘 D
$\otimes D$
计算得到伪点云
$\in \mathbb{R}^{N_c D_{bin} C \times X \times Y \times Z }$
通过体素化
$\ Oc \in R^{C \times \frac{X}{\sigma_x} \times \frac{Y}{\sigma_y} \times \frac{Z}{\sigma_z}} \$

最低0.47元/天解锁文章

骆驼穿针眼

关注

15
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

为了解决这些问题，论文提出了一种名为Compact Occupancy TRansformer（COTR）的方法，它包括一个几何感知的占用编码器和一个语义感知的组解码器，以重建一个紧凑的3D OCC表示。总结来说，COTR通过提出紧凑的3D占用表示和语义感知的组解码器，有效地解决了3D占用预测中的几何信息丢失、计算成本高和语义可区分性差的问题。现有的3D占用表示缺乏语义可区分性，这限制了网络成功识别稀有物体的能力，这部分是由于数据集中的类别不平衡问题导致的。
复制链接

扫一扫

专栏目录