【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

在这里插入图片描述
论文
github

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的是自动驾驶领域中的3D占用预测问题。具体来说,它旨在通过构建一个紧凑的3D占用表示(Occupancy Representation),来提高对自动驾驶车辆周围环境的3D场景理解。这个问题的挑战在于:

  • 现有的3D表示方法(如Tri-Perspective View, TPV)在压缩视图时会丢失3D几何信息。

  • 原始的占用表示(Occupancy Representation, OCC)虽然能保留更多的几何信息,但是计算成本高,且由于其稀疏性,信息密度低,存在大量冗余。

  • 现有的3D占用表示缺乏语义可区分性,这限制了网络成功识别稀有物体的能力,这部分是由于数据集中的类别不平衡问题导致的。
    在这里插入图片描述

为了解决这些问题,论文提出了一种名为Compact Occupancy TRansformer(COTR)的方法,它包括一个几何感知的占用编码器和一个语义感知的组解码器,以重建一个紧凑的3D OCC表示。这种方法旨在保留丰富的几何信息,最小化计算成本,同时提高语义可区分性。通过实证实验,COTR在多个基线模型上显示出显著的性能提升,证明了该方法的优越性。

结构图
在这里插入图片描述

Q: 论文如何解决这个问题?

A: 论文提出了一种名为Compact Occupancy TRansformer(COTR)的方法来解决3D占用预测问题。COTR通过以下几个关键技术来解决现有方法的局限性:

  • 几何感知的占用编码器(Geometry-aware Occupancy Encoder):该编码器使用显式-隐式视图转换(Explicit-Implicit View Transformation)来生成一个紧凑的几何感知的3D占用特征。首先,通过显式视图转换(EVT)生成一个稀疏但高分辨率的3D占用特征,然后将其下采样到一个紧凑的占用表示,该表示的大小仅为原始大小的1/16,同时没有性能损失。接着,隐式视图转换(IVT)通过空间交叉注意力和自注意力进一步丰富这个紧凑的特征。
    通过特征提取image Feature 生成 F , 然后跟深度分布进行点乘 D
    F ⊗ D F \otimes D FD
    计算得到伪点云
    P ∈ R N c D b i n C × X × Y × Z P \in \mathbb{R}^{N_c D_{bin} C \times X \times Y \times Z } PRNcDbinC×X×Y×Z
    通过体素化
      O c ∈ R C × X σ x × Y σ y × Z σ z   \ Oc \in R^{C \times \frac{X}{\sigma_x} \times \frac{Y}{\sigma_y} \times \frac{Z}{\sigma_z}} \  OcRC×σx
  • 15
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在医学图像分割中,Transformer是一种用于替代传统卷积神经网络的方法。它能够有效地处理3D医学图像,提供更精确的分割结果。 一种基于Transformer的方法是CoTr,它结合了CNN和Transformer来进行3D医学图像分割。另一个方法是UNETR,它采用纯Transformer来进行3D医学图像分割。Swin-unet是另一种类UNET的方法,它也是基于Transformer的。还有一种名为TransBTS的方法,它使用Transformer进行多模态脑肿瘤分割。而TransUNet则是一种利用Transformer作为强大编码器的方法,用于医学图像分割。 这些方法的核心思想是利用Transformer的自注意力机制来捕捉图像中的长距离依赖性,从而提高分割的精确度。与传统的卷积神经网络不同,Transformer对于图像中的每个位置并不均等对待,而是通过引入可变形的自注意力机制来关注少数关键位置。这种方法大大降低了计算和空间复杂度,并且能够处理多尺度和高分辨率特征图,从而提高了医学图像分割的效果。 如果您对Transformer在医学图像分割中的具体实现感兴趣,您可以学习一些相关的Vis Transformer,并以博客的形式详细讲解。此外,U-Net的decoder部分也是医学图像分割中常用的一种技术,可以进一步加深对医学图像分割的理解。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [transformer进行医学图像分割文章](https://blog.csdn.net/weixin_43779199/article/details/119949622)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [医学图像分割之TransUNet](https://blog.csdn.net/yjysunshine/article/details/130260556)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值