题目:PointPainting: Sequential Fusion for 3D Object Detection
文章链接:
https://arxiv.org/pdf/1911.10150.pdf
思路
在看PointPainting之前有想过把图像的RGB属性投影到点云上,这样每个点云就不止有xyzr属性,还有了RGB属性,应该对精度提升有帮助,同时又不会有太多计算量。
这个文章刚构思的时候可能也尝试了上面我讲的方法。可能效果提升很小或者负面效果。
于是作者进一步思考,只加入RGB特征是不是太少了,同时加入图片的语义信息不是很好吗。可解释性也很强,比如人和路标,在点云中很像,基本上是无法区分的,但是加入了语义信息,二者就容易区分很多了。
流程
- 图片语义分割
- 点云特征融合
- 基于点云的目标检测
可能存在的问题
还没有读完,自己的疑惑:
- 语义分割标签(官网上有语义分割的标签)
- 语义分割精度如果不高的话,反而会起反作用。
- 语义分割精度如何,使用的是不是KITTI数据集上语义分割精度最高的模型。
- 特征融合的耗费时间多不多?
- 文章中不是端到端的,能否做成端到端的。
类比
PointRCNN和这个方法的共同点是:两者都想办法增加点云的语义信息,PointRCNN是通过点云语义分割得到点云的语义信息,而本文的方法是使用图像增加点云的语义特征。
两者可以同时使用,也就是把图像特征作为PointRCNN的原始输入。
其他
- 论文中没有正面回答语义分割耗时多少,而是说采用上一张的图片作为当前帧的输入,对结果几乎没有影响。但是无论怎样,都应该说明耗时到底多少,让读者心中有数,而不是避而不谈,诱导读者(说误导不太合适)。
- 语义分割任务的输出是一个浮点数,量化成one hot指示类别。两者都输入到网络,作者做了对比实验,效果差距不大。完全可能是随机因素造成的。