论文阅读SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition using Sparse Voxel Trans

最新推荐文章于 2024-09-07 22:26:58 发布

xuershuai

最新推荐文章于 2024-09-07 22:26:58 发布

阅读量319

点赞数

分类专栏：论文阅读文章标签：深度学习自动驾驶

论文阅读专栏收录该内容

21 篇文章 2 订阅

订阅专栏

标题：SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition using Sparse Voxel Transformers

来源：中国人民大学
期刊：未知（预打印版本）

摘要：
基于点云的大规模位置识别是同步定位与建图(SLAM)等许多应用的基础。虽然已经提出了许多模型，并通过学习短期局部特征取得了良好的性能，但长期上下文属性往往被忽视。此外，模型尺寸也成为其广泛应用的瓶颈。为了克服这些挑战，我们提出了一种用于大规模位置识别的超轻网络模型SVT-Net。具体来说，在高效的三维稀疏卷积(SP-Conv)的基础上，提出了基于原子的稀疏体素转换器(ASVT)和基于聚类的稀疏体素转换器(CSVT)来学习模型中的短程局部特征和远程上下文特征。SVT-Net由ASVT和CSVT组成，在超轻模型尺寸(0.9M)下，可以在基准数据集上实现最先进的精度和速度。同时，引入了SVT-Net的两个简化版本，也达到了最先进的水平，进一步将模型尺寸分别减小到0.8M和0.4M。

主要贡献：
1)我们提出了一种新的轻量级基于点云的位置识别模型SVT-Net，以及两个简化版本:ASVT-Net和CSVT-Net，它们都在极小的模型尺寸下取得了最先进的精度和速度性能。
2)我们提出了基于原子的稀疏体素变换(ASVT)和基于聚类的稀疏体素变换(CSVT)来学习隐藏在点云中的远程上下文特征。据我们所知，我们是第一个提出用transformer来表示稀疏体素的。
3)我们进行了大量的定量和定性实验，以验证我们提出的模型的有效性和效率，并分析了两个模型实际学到什么。
点云场景识别框架：
在这里插入图片描述
一些细节：
Transformer[38]最初是为自然语言处理(NLP)任务而提出的。自我注意机制是Transformer的核心，因为它具有捕获长期上下文信息的能力。目前，Transformer已成为自然语言处理领域最重要的基础模块。在Transformer在NLP领域取得巨大成功的启发下，研究者逐渐开始思考自我注意机制是否也能在计算机视觉领域发挥作用。
Vision Transformer (ViT)是最近提出的。它采用了自我注意的思想，将图像分割为16x16的视觉文字。这样，图像就可以像自然语言一样被处理。然后，提出了一系列后续工作来改进它。例如，Wu等人提出了Visual Transformer (VT)，它将图像特征投影，并利用经典的Transformer对投影进行处理，大大降低了计算成本。在PVT中，引入了类似FPN的结构来处理密集的预测任务。在swwin - transformer中提出了一个层次结构。通过将自自注意力约束在不重叠的局部窗口上，该模型可以获得更高的效率。最近，Jiang等人成功地在gan中应用了视觉GANS。关于视觉变形金刚在2D图像上的更全面的介绍，请参阅[14]。以上介绍的Vision Transformer都是为处理图像而设计的。Transformer处理点云的工作很少[45,12]，这意味着Transformer的3D视觉还有待探索。在本文中，我们提出了两种可以用于处理稀疏体素表示的点云的变压器。这是第一个为点云设计稀疏体素Transformer的工作。

多种先进算法对比：
在这里插入图片描述
ASVT和CSVT网络学习到的内容可视化：

效率和网络大小对比：

结论：
本文介绍了一种用于大规模位置识别的超轻量级网络SVT-Net。在SVT-Net中，提出了两种稀疏体素Transformers:基于原子的稀疏体素Transformers (ASVT)和基于聚类的稀疏体素Transformers (CSVT)来学习远程上下文属性。大量的实验证明，SVT-Net及其两个简化版本ASVT-Net和CSVT-Net可以通过极其轻量级的网络体系结构实现最先进的性能。局限性在于，目前的工作没有考虑如何处理复杂的情况，如点云稀疏。在未来，我们将研究如何将这两种稀疏体素转换器迁移到其他基于点云的任务中，并研究如何处理更复杂的场景。

xuershuai

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition using Sparse Voxel Trans

标题：SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition using Sparse Voxel Transformers来源：中国人民大学期刊：未知（预打印版本）摘要：基于点云的大规模位置识别是同步定位与建图(SLAM)等许多应用的基础。虽然已经提出了许多模型，并通过学习短期局部特征取得了良好的性能，但长期上下文属性往往被忽视。此外，模型尺寸也成为其广泛应用的瓶颈。为了克服这些挑战，我们提出了一种用于大规模位
复制链接

扫一扫

专栏目录