将3D目标看作序列检测-Point2Seq: Detecting 3D Objects as Sequences
论文地址:
https://arxiv.org/abs/2203.13394
代码地址:
https://github.com/ocNflag/point2seq
论文简介:
这篇文章主要是参考了Google去年的Pix2seq目标检测模型:
这篇文章跟Pix2seq基本一致,只不过将每个3D对象视为一系列单词序列,并将3D对象检测任务重新表示为以自回归的方式从3D场景中解码单词
但是全文看下来仿佛还是更接近传统的锚框/中心检测方法,跟Pix2seq模型的动机不太一致,因为Point2Seq仍采用基于特征像素点的密集预测以及回归坐标的方法,并且单词表示仍采用连续表示,无法拓展到多任务多模型,语言建模也仅体现在顺序预测上
此外匹配部分仍采用了Detr中的二分匹配,感觉是3D Detr的翻版而非P