0. 这篇文章干了啥?
一句话总结:OneFormer3D是一个统一、简单、有效的模型,同时实现了3D点云的语义分割、实例分割和全景分割。
3D点云分割主要包含三类:语义、实例和全景。语义分割为每个语义类别输出一个掩码,使得点云中的每个点被分配一个语义标签。实例分割返回一组单个对象的掩码。全视角分割为每个前景对象预测一个掩码,并为每个背景点预测一个语义标签。
三个三维分割任务实际上都隐含着预测一组掩码,但它们通常是完全不同的架构。三维语义分割方法依赖于 U-Net网络。三维实例分割方法将语义分割模型与基于聚类、目标检测或Transformer解码器的聚合方案相结合。三维全景分割在二维图像中执行全景分割,然后将预测的掩码提升到三维空间并逐点聚合。
至此,出现了一个很自然的问题:能否用单一统一的方法共同解决所有三个三维分割任务?
这就是OneFormer3D的工作,第一个多任务统一的三维分割框架。使用 SPFormer 基线,在Transformer解码器中并行添加语义查询和实例查询,以统一预测语义和实例分割掩码。然后,确定了基于Transformer的三维实例分割性能不稳定的原因,并通过新的查询选择机制和新的高效匹配策略解决了问题。最后,提出了一个只需训练一次的单一统一模型,即使它们专门针对每个任务进行了调整,也能优于三维语义、三维实例和三维全视角分割方法。<